Big data, kristallen bollen, en op zoek glazen: het beoordelen van 2017, het voorspellen van 2018

0
199

Nul

Laten we beginnen door het verkrijgen van de voor de hand liggende uit de weg: er is geen manier waarop we kunnen nauwkeurig te voorspellen wat er gaat gebeuren, en je moet heel sceptisch als mensen beweren anders. Zelfs bij het gebruik van data en geavanceerde analyse technieken, zal er altijd een afwijking en onvolmaaktheid in de analyses.

Wij toegeven dat het hebben van een subjectief standpunt, maar dat is geïnformeerd door de controle op de gegevens van de industrie en het nieuws van het afgelopen jaar, en we proberen te benutten dit om te benadrukken wat zijn de meest importeren trends voor de toekomst. Zonder verdere omhaal, hier zijn de top vijf van dingen die we hebben opgemerkt in 2017, en zal een oogje in 2018.

5: Streaming wordt mainstream

In de data-wereld, streaming is nog niet alles over de Netflix-hoewel Netflix ook doet. Verward? Laten we set the record straight. Streaming-media streams van gegevens die zijn verwerkt in real-time. Het real-time gedeelte is niet alles wat nieuw — operationele databases zijn doen dat al jaren.

Wat is er nieuw is echter het feit dat de data is niet alleen geduwd om het aantal back-end voor de opslag om de macht van de werking van toepassingen, maar ook geanalyseerd op de vlieg. De eindeloze stromen van gegevens die zijn gegenereerd door toepassingen leent zijn naam aan dit paradigma, maar brengt ook een aantal moeilijk om te gaan met eisen aan de tabel.

Hoe ga je om met het opvragen van de semantiek en de tenuitvoerlegging wanneer uw gegevens niet eindig is, wat voor soort verwerking kunt u doen op dergelijke gegevens, hoe kan je het combineren met gegevens uit andere bronnen of het te voeden met uw machine learning pijpleidingen, en doen dit aan de productie-schaal?

Dit zijn moeilijke kwesties. Dit is de reden waarom data-analyse heeft zijn toevlucht genomen tot het gebruik van een zogenaamde Lambda-architectuur: twee verschillende lagen voor de verwerking van de binnenkomende gegevens, een serie werken met historische gegevens en een real-time aan het werk met live gegevens.

Dit is niet ideaal: twee sets van codebases en platforms te onderhouden, dat betekent meer werk, meer kosten en meer kans op afwijkingen. Als de real-time laag was niet echt tot de taak van de afhandeling van alles, dat was de enige haalbare optie. Maar als real-time verwerking van gegevens platforms liggen te rijpen, de Lambda-architectuur is de Kappa-architectuur: een real-time laag om ze allemaal te regeren.

Use cases rijden vaststelling van real-time streaming data toepassingen zijn IoT en de Financiële Diensten. Dit zijn echter niet de enige domeinen waar tijd geld is, als adopters in Programmatische Reclame of Retail zijn presentatie. Bijvoorbeeld, het kunnen identificeren en verwerken afgewezen credit card transacties in real-time kan resulteren in maximaal 80 procent minder transacties verlaten, dus toegenomen omzet.

De meest opvallende keuzes in termen van platforms hier zijn Apache open source projecten,met een aantal commerciële entiteit aanbieden van Sla ‘ s en de ondersteuning en cloud-providers. Op het eerste kamp hebben we Flink / dataArtisans, Vonk / DataBricks en Kafka / Samenvloeiende, op de tweede een Amazon Kinesis, Azure Stream Analytics en Google Cloud Dataflow.

Apache-Beam is een interessante poging om een compatibiliteit laag tussen de verschillende opties, met het doel van het aanbieden van een gemeenschappelijke API in alle streaming platforms. Bundel werd begonnen door Google en goedgekeurd door Flink, maar het lijkt op een patstelling als Kafka mensen zeggen dat ze niet geïnteresseerd zijn, tenzij ondersteuning voor tabellen is toegevoegd en Spark mensen niet van plan zijn te plegen bronnen die dit ondersteunen.

4. Hybride Transactionele Analytical Processing

Traditioneel, operationele databases en platforms voor de data-analyse zijn twee verschillende werelden. Dit is gekomen om te worden gezien als natuurlijke, als na alle eisen voor use cases die nodig zijn onmiddellijke resultaten en de transactionele integriteit zijn zeer verschillend van degenen die behoefte aan een complexe analyse en langlopende verwerking.

Nogmaals, echter, dit leidt tot een niet ideale situatie waar de gegevens moeten worden verplaatst tussen operationele en analytische gegevens platforms. Dit maakt hoge kosten en complexiteit, en het betekent dat google analytics niet de meest recente gegevens rekening te houden. Dus wat als er een manier te verenigen transactionele databases en datawarehouse-zoals de verwerking?

Dat is makkelijker gezegd dan gedaan natuurlijk, en er zijn goede redenen waarom dit niet is bereikt tot nu toe. Vandaag echter is er een naam voor dat — Hybride Transactionele Analytical Processing — maar misschien belangrijker nog-er zijn inspanningen bij de aanpak van dit in de echte wereld.

Sommige zijn gebaseerd op in-memory benaderingen, zoals GridGain, wat begon als een in-memory rooster alvorens uit te breiden naar een volledig geblazen transactionele database, of SnappyData, die een combinatie van een in-memory raster en transactionele database (FireGem) met een Apache Vonk. Ook Las Machine combineert een key-value-archief van de Hadoop-stack (HBase) met haar eigen technologie uitvoeren van operationele en analytische werkbelasting onder dezelfde kap.

Hadoop leveranciers hebben ook een hier zeggen, als beide Cloudera met Kudu en MapR met MapR-DB probeert uit te breiden Hadoop de traditionele focus op analyse op te treden als een operationele database. Een andere interessante en weinig bekend benadering komt uit Swarm64, werken aan het geven van operationele databases analytische grootmachten.

3. Inzicht Platforms as a Service

Vergeet niet hoe wij opgemerkt gegevens is de weg te gaan van de cloud? Hoewel er geen tekenen van vertraging, er is nog een interessante trend ontrafelen, de zogenaamde Inzicht Platforms as a Service (IPaaS). De gedachte hierachter is eenvoudig: als uw gegevens in de cloud toch, waarom niet gebruik maken van een platform dat is ook in de cloud voor het uitvoeren van analyses op hen, en het automatiseren van zoveel mogelijk van het proces mogelijk te maken?

De stelling hier is het bieden van de onderliggende data management-en analytics-mogelijkheden als grondstoffen te krijgen van de reële waarde die afkomstig is van inzichten geleverd van de gegevens. Waarom zou je willen krijgen in de problemen van het opzetten en onderhouden van data-verzameling, opslag en pijpleidingen, visualisatie en analytics tools, complexe verwerking en machine learning algoritmen om naar inzicht, als je gewoon abonneren op een platform dat doet dit allemaal voor u?

Dit is een verleidelijk voorstel voor organisaties die dit zien als een manier van kant-stepping alle de complexiteit en de kosten geassocieerd met het krijgen van de in-house expertise die nodig is om zoiets als dit op hun eigen.

Het tegenargument zou zijn dat als niet alle organisaties zijn digitale en data-driven al, ze zal in grote mate worden in de nabije toekomst. Dus uitbesteden, zou alles misschien niet heel verstandig-niet om te vermelden dat niet iedereen zal bereid of in staat is te ontladen alles naar de cloud, want er zijn een aantal kwesties in verband met dit ook.

Onverwacht, belangrijkste aanbiedingen in deze categorie komen van cloud leveranciers zoals AWS, Microsoft Azure, IBM Watson, en Google Cloud Platform, maar er zijn ook onafhankelijke leveranciers zoals DataBricks en Qubole met hun eigen waarde propositie. Hadoop leveranciers Cloudera, Hortonworks, en MapR zijn ook de overgang naar deze ruimte, als ze beseffen dat het niet zo veel over Hadoop meer, maar wat je ermee doet dat telt.

2. Het verplaatsen van de analytics-stapel

Traditioneel, als praten analytics, zou men denken van datawarehouses, rapportages, dashboards, en de laatste tijd ook visuele interfaces, widgets enzovoort. In andere woorden, als je ziet wat er gebeurd is in je domein van belang, en misschien het krijgen van een idee van waarom het is gebeurd door het analyseren en correleren.

Terwijl geen van die, onder de naam beschrijvend en diagnostisch analytics respectievelijk weg is, het is het laatste jaar is het nieuws. Dit is vrij veel een gegeven van deze dagen, en zo veel average Joes zijn al goed bedreven zijn in de kunst van data-gedreven analyse, kan het nauwelijks een onderscheidende factor voor organisaties.

Als beschrijvend en diagnostisch analytics worden steeds gestandaardiseerde, we zijn het verplaatsen van de stapel in de richting van voorspellende en prescriptive analytics. Predictive analytics is over het feit dat in staat om te voorspellen wat er de komende gebaseerd op wat er gebeurde zo veel, terwijl prescriptive analytics is over het nemen van de juiste koers van de actie om een gewenste uitkomst gebeuren.

Predictive analytics maakt gebruik van machine learning (ML), een techniek die is gebaseerd op het gebruik van gegevens uit het verleden om te trainen algoritmen voor het voorspellen van toekomstige gegevens, eerder dan met de hand vervaardigen van hen procedureel als in de traditionele software engineering. Prescriptive analytics is een nog meer ingewikkelde stap die misschien wel de grenzen op van AI, en zeer weinigen zijn in staat om gebruik te maken op dit punt.

Zoals reeds betoogd voor de explosie in toepassingen, en de hype, voor ML is niet zozeer te wijten aan de vooruitgang in algoritmen, maar meer vanwege het feit dat door nu hebben we genoeg verzameld gegevens en de verwerking van de macht te maken ML haalbaar in veel gevallen.

Deze ruimte is zeer explosief, en omvat alles van ML bibliotheken zoals Vonk MLLib, Caffe2, TensorFlow, en DeepLearning4J mensen kunnen gebruiken om hun eigen op te bouwen ML algoritmen en toepassingen vanaf nul, om het embedded analytics kaders zoals Salesforce Einstein, SAP Hana, of GoodData dat bieden deze mogelijkheden in hun eigen omgeving, te namen, zoals Amazon, Facebook, Uber, en YouTube als iconische voorbeelden van toepassingen en soms bijdragen op dit gebied.

1. De ‘machine learning’ feedback loop

Het tempo van de veranderingen wordt gekatalyseerd en versnelde op grote door de gegevens zelf, in een self-fulfilling prophecy van soorten: data-driven product -> meer data -> betere inzichten -> meer winst -> meer investeringen -> betere product -> meer gegevens. Dus terwijl sommige zijn nog steeds worstelen met de fundamentele problemen in verband met het verzamelen van gegevens en de opslag, het bestuur, veiligheid, organisatie-cultuur en vaardigheden, anderen zijn meer bezig met de hogere eind van de big data hiërarchie van behoeften.

De bovenstaande paragraaf is een letterlijke kopie van wat we merkten vorig jaar, en als het iets is, wat hij beschrijft is zelfs meer uitgesproken, tot op het punt van het hebben van de Econoom pleit voor een nieuwe aanpak op de antitrustregels gevraagd voor de data-economie.” Nu, waarom zou de Econoom dit doen? Niet gegevens verondersteld om innovatie en allerlei prachtige nieuwe toepassingen?

Absoluut. Innovatie en data-gedreven automatisering aangedreven door nieuwe ontwikkelingen in de ML en AI zijn spel verandert. We hebben zelfs begon te zien dat de sporen van het automatiseren van de automatisering in 2017, bijvoorbeeld met ML kaders die bouwen ML. Het probleem hierbij is echter dat deze data-driven feedback lus leidt ook tot nieuwe monopolies die nog niet aangevinkt.

Er is een verbluffende concentratie van gegevens, expertise en infrastructuur in de handen van de weinige spelers, terwijl het gebrek aan het bewustzijn en de actie betekent dat de kloof waarschijnlijk zal blijven toenemen. En die paar spelers hebben een duidelijke agenda ‘ s die bestaan uit één ding: zichzelf. Dus om blind geloof in data-gedreven innovatie en automatisering betekent om voor een ruw ontwaken.

“Ik heb niet voldaan aan één CEO van Deutsche Bank, JP Morgan, die tegen me zei: ‘ok, dit zal verhogen van onze productiviteit door een enorm bedrag, maar het gaat om de sociale impact — wacht, laten we het’. Het belangrijkste nu is het verplaatsen van de mensheid naar een hoger grond. Als de mensen niet wakker, ze moeten klauteren — dat is mijn 2 cent.” — Chetan Dube, CEO van IPSoft

“We praten over machines verplaatsen van mensen, machines veranderen de manier waarop mensen werken. Wie is eigenaar van de machines? Die moet eigenaar zijn van de machines? Misschien is wat we nodig hebben om na te denken over de manier waarop de werknemers die werken met de machines die deel uitmaken van eigenaren van de machines.” — Laura Tyson, voormalig Voorzitter van de AMERIKAANSE President Raad van Economische Adviseurs

Verwante Onderwerpen:

Data Management

Digitale Transformatie

Robotica

Het Internet van Dingen

Innovatie

Enterprise Software

0