NORSK

Big Data 2017: De toekomst is het bewolkt

Het oude gezegde over twee hoofden zijn beter dan één kan goed van toepassing op dit blog-behalve in dit geval, drie hoofden. En een van de leuke dingen over het schrijven van dit blog is het verkrijgen van de kans om te pick-up waar mijn collega ‘ s uit te laten.

Vorige week, Andrew George en onthulde hun kristallen bollen, en er was meer dan een passerende gelijkenis met wat we vastgelegd in onze Eicel weersverwachting, hier beschikbaar. Voor de goede orde, we hebben voorspeld dat machine learning zou de grootste disruptor voor Big Data analytics gaan. Het is moeilijk om te negeren de ‘machine learning’ en AI juggernaut. Als u producten kopen op Amazon of eBay, communiceren met vrienden via Facebook, een netwerk via LinkedIn, of stream entertainment op Netflix, uw ervaring wordt gevormd door machine learning modellen suggereren welke producten, promoties, vrienden, professionele contacten, of video ‘ s kan voor u het meest relevant.

Big Data, Kristallen bollen en op Zoek Glazen: het beoordelen van 2016, het voorspellen van 2017 | Kan meer meta-denken we ons kunnen bevrijden uit de huidige malaise? Van de klant | relatie: Het is allemaal over de gegevens

Het raadsel, zoals George schreef, is dat “de massa’ s zijn nog steeds bezig om in het reine te komen met Machine Learning.” Zoals we geleerd hebben, de sleutel tot succes met machine learning en de AI is niet per se een hersenoperatie. Het gaat over het vormen van de juiste teams, omdat de gegevens wetenschapper, hoe briljant of creatief te zijn, kan niet garanderen inzichten of ontdekkingen alleen; succesvolle data science is een team sport.

Speciale Functie

Going Deep on Big Data

Diep te gaan op Big Data

Big data is de overgang van één van de meest gehypte en verwachte tech trends van de afgelopen jaren uitgegroeid tot één van de grootste uitdagingen die HET nu probeert te worstelen en harnas. We onderzoeken de technologieën en best practices om te profiteren van big data en bieden een kijk op organisaties die zetten het goed te gebruiken.

Zoals we reeds een aantal maanden terug, gegevens wetenschappers kunnen hun weg weten in algoritmen, maar niet per se hoe om ze om te draaien op het cluster. Dat is typisch de rol van de ingenieur, en volgens de conclusies gerapporteerd door Andrew van DataStax, de term (en we gaan er van uit, rol) van de gegevens wetenschapper zou kunnen worden ondergebracht door data engineers. Wij hadden een iets andere draai: gegevens wetenschappers niet minder relevant, maar de vraag naar gegevens ingenieurs houden overstijgt. Het presages de behoefte om beide op dezelfde pagina, samen met business analisten en het onderwerp (domein) deskundigen.

En zo gaan we verder om meer te zien van tools en frameworks voor het verkrijgen van gegevens wetenschappers verbonden. Aanbod zoals IBM Watson Data Platform, die geïntegreerd werkruimten voor elk van de rollen; Alpine Data Lab, die voorziet in een samenwerkingsomgeving voor gegevens wetenschappers en business analisten; Dataiku, die biedt een geïntegreerd analytics tool met connectors met gegevensbronnen visual gegevens prep, en een keuze van ongeveer 30 ML kant-en-klare algoritmen; Domino-Lab, die zorgt voor beheer van levenscyclus voor ML projecten; en Alteryx, die combineert self-service analytics met een back-end voor het ontwikkelen van ML-programma ‘ s. Dit is slechts het topje van de ijsberg; in het nieuwe jaar, we zullen zien meer aanbiedingen die data scientists en data-ingenieurs verbonden.

In Andrew ‘ s stuk, StreamSets CEO en oprichter Girish Pancha werd geciteerd voorspelt dat in 2017, “organisaties zouden stoppen om Dingen op een voetstuk.”

Wij geloven dat de IoT is de use case die duwen real time streaming op de voorste brander. Het is het resultaat van een perfecte storm: open source verlaagd toetredingsdrempels voor wat was grotendeels duur, de eigen technologie; commodity hardware maakte verwerking van grote torrents van streaming data betaalbaar en haalbaar is; en de bandbreedte en het equivalent van de Wet van Moore voor sensoren gemaakt slimme apparaten meer alomtegenwoordig en steeds meer worden aangesloten.

Maar om te voorkomen dat u slachtoffer wordt van haar eigen succes, IoT verkeer moet worden beheerd. Dat verklaart niet alleen de enorme groei van streaming analytics technologieën zoals Vonk Streaming, Storm, Flink, Apex, SQLstream, Kinesis, Reiger en anderen, maar ook aanbiedingen die bemiddelen van datastromen en het aanschuiven, zoals Kafka, MapR Stromen, Apache NiFi (productized door Hortonworks), Teradata Luisteraar en anderen. Het verhoogt ook de urgentie van het houden spraakzaam sensoren van de overweldigende netwerk.

En dat verklaart waarom Amazon heeft uitgebreid buiten haar comfort zone met een cliënt-afmetingen apparaat, Greengrass, die een aantal Lambda verwerking op eigen terrein te verminderen en cache sommige van die Dingen chatter voordat het aan de Amazon cloud. Kijk voor meer aanbod komen in 2017, als de teelt van omarming van het omarmen verhoogt het bewustzijn voor de heroïsche middelen om de bandbreedte van het krijgen van overweldigd.

En, steeds meer, Big Data, of van de IoT of meer traditionele bronnen, is gaan wonen en worden verwerkt in de cloud. Dit jaar verwachten we een ongeveer 35 – 40% van de nieuwe Big Data-workloads te worden cloud-gebonden; we verwachten dat het buigpunt — waar de meerderheid van de nieuwe Big Data-workloads worden ingezet in de cloud — zal gebeuren uiterlijk in 2019.

Terwijl hij in zijn post, George poneerde dat er grenzen – hij komt overeen met de cloud vs. op het terrein als een huur versus koop beslissing, wij geloven dat andere factoren zullen steeds meer cloud-implementatie van Big Data de norm, en op het terrein van de uitzondering. Er zijn de usual suspects, zoals de drang om verschuiving van de kosten van kapitaal voor operationele budgetten; de snelheid van implementatie en gegevens van de zwaartekracht. En met hogere prestaties berekenen zoekmachines zoals Vonk, de straf van cloud-gebaseerde architecturen (waar opslag gescheiden van berekenen) zal groeien meer triviaal.

Maar we geloven dat een paar factoren die van belang zijn om de Big Data zal druk op de kwestie over de top. Ten eerste is er de complexiteit van het opzetten van Hadoop, een hindernis die van invloed zijn op nieuwe gebruikers die niet de IT-middelen van de pioniers. Maar uiteindelijk is de kwestie van de veiligheid zal de doorslag. Als de gegevens meren meer gegevens worden opgeslagen — en met hem, de kans dat die gegevens sets bevatten een uiterst gevoelige gegevens — de noodzaak om te zorgen voor hen groeit meer voorop in vergelijking met de vroege dagen als Hadoop alleen opgeslagen anonieme clickstream-gegevens. In een tijd van snel morphing exploits en hacks, wie is beter voorbereid om te gaan met aanvallen? Enterprise IT, of de cloud provider die de infrastructuur van hun core business?