Big data, kristallkulor, och letar glasögon: Granska 2017, förutsäga 2018

0
110

Noll

Låt oss börja med att få den uppenbara ur vägen: det finns inget sätt som vi kan exakt förutsäga vad som kommer att hända, och du bör vara mycket skeptisk när folk säger något annat. Även när du använder data och avancerade metoder för analys, det kommer alltid att finnas fördomar och brister i analyserna.

Vi medger att de har en subjektiv synvinkel, men en som är välinformerade genom att övervaka data-branschen och dess nyheter för det gångna året, och vi försöker utnyttja detta för att markera vad som är den mest import trenderna går framåt. Utan vidare, här är de fem saker som vi har noterat i 2017, och kommer att hålla ett öga på i år 2018.

5: Streaming blir mainstream

I data världen, streaming är inte allt om Netflix-även om Netflix också gör det. Förvirrad? Låt oss ange posten raka. Streaming syftar till strömmar av data som bearbetas i realtid. Den verkliga tiden var en del är inte allt det nya — operativa databaser har gjort det år efter år.

Vad som är nytt är dock det faktum att nu data är inte bara sköt till några back-end för lagring för att driva drift av applikationer, men också analyseras på fluga. De ändlösa strömmar av data som genereras av program som lånar ut sitt namn till denna paradigm, men även ger lite svårt att hantera med krav till bordet.

Hur hanterar du med att fråga semantik och genomförande när dina data är inte finita, vilken typ av behandling kan du göra på dessa uppgifter, hur gör du för att kombinera det med data från andra källor eller foder till din maskin lärande rörledningarna, och göra detta på produktion skala?

Dessa är svåra frågor. Detta är anledningen till att data analytics har tillgripit att använda vad som kallas en Lambda arkitektur: två olika lager för bearbetning av inkommande data, ett parti som arbetar med historiska data och en real-tid man arbetar med live-data.

Detta är inte idealiskt: två uppsättningar av codebases och plattformar för att underhålla, vilket innebär mer kraft, mer kostnadseffektiva, och fler möjligheter till avvikelser. Som realtid lager var inte riktigt upp till uppgift att hantera allt trots, som var den enda hållbara alternativet. Men som data i realtid bearbetning plattformar är mogna, Lambda arkitektur ger vika för den Kappa arkitektur: en real-time lager för att styra dem alla.

Använd fall kör antagandet av real-time streaming data program har varit sakernas internet och Finansiella Tjänster. Men dessa är inte de enda områden där tid är pengar, som adopters ” och Programmatiska Reklam eller Detaljhandel är att visa upp. Till exempel, för att kunna identifiera och behandla avvisat kreditkort transaktioner i realtid, kan resultera i upp till 80 procent mindre övergivna transaktioner, därför ökade försäljningsintäkter.

Den mest framträdande valmöjligheter i form av plattformar här är open source-projekt som Apache,med några kommersiellt företag som erbjuder Sla: er och stöd och moln leverantörer. På first camp har vi Flink / dataArtisans, Spark / DataBricks och Kafka / Sammanflytande, på den andra en Amazon Kinesis, Azure Ström Analytics och Google Cloud Dataflöde.

Apache Beam är en intressant insatser på interoperabilitet skikt mellan olika alternativ, med målet att erbjuda ett gemensamt API i alla strömmande plattformar. Beam startades av Google och som antogs av Flink, men det verkar vara i ett dödläge som Kafka folk säger att de är inte intresserade om stöd för tabeller har lagts till och Gnista människor inte har för avsikt att begå några resurser på att stödja det.

4. Hybrid Transaktions-Analytisk Bearbetning

Traditionellt, operativa databaser och plattformar för analys av data har varit i två olika världar. Detta har kommit att ses som naturlig, som efter alla krav för att använda de fall som behöver omedelbara resultat och transaktionella integritet är mycket olika från de som behöver komplex analys och långvarig behandling.

Igen, men detta leder till en icke ideal situation där data har flyttats runt mellan operativ och analytisk data plattformar. Detta medför stora kostnader och komplexitet, och det innebär att analytics inte ta den senaste uppgifter beaktas. Så vad händer om det skulle kunna vara ett sätt att förena affärsbeslut databaser och datalager-liknande behandling?

Det är lättare sagt än gjort naturligtvis, och det finns goda skäl till varför detta inte har gjorts fram till nu. Idag är dock att det finns ett namn för det-Hybrid Transaktions-Analytisk Bearbetning-men än viktigare är kanske att det finns insatser för att åtgärda detta i den verkliga världen.

En del är baserade på i minnet närmar sig, såsom GridGain som började som ett minne nätet innan de expanderar till en fullt utvecklad affärsbeslut databas, eller SnappyData som kombinerar ett minne nätet och affärsbeslut databas (FireGem) med Apache Gnista. På samma sätt, Skarv-Maskinen som kombinerar en key-value store från Hadoop stack (HBase) med dess egenutvecklade teknik för att köra operativ och analytisk arbetsbelastning under samma huva.

Hadoop leverantörer också har något att säga här, som både Cloudera med Kudu och MapR med MapR-DB är ett försök att expandera Hadoop traditionella fokus på analytics att fungera som ett operativt databasen också. En annan intressant och föga kända tillvägagångssätt kommer från Swarm64, arbetar på att ge operativa databaser analytisk superkrafter.

3. Insikt Plattformar som Tjänst

Kom ihåg hur vi noterade uppgifter är att gå vägen för molnet? Det finns inga tecken på detta saktar ner, det är en annan intressant trend reda ut, den så kallade Insikt Plattformar som Tjänst (IPaaS). Tanken bakom detta är enkel: om dina data finns i molnet ändå, varför inte använda en plattform som är också i molnet för att köra google analytics på dem, och automatisera så mycket av processen som möjligt?

Förslaget här är att erbjuda den underliggande data management och analytics-funktioner som råvaror för att få till det verkliga värde som kommer från insikter levereras från data. Varför skulle du vilja få i trubbel för att inrätta och upprätthålla insamling, lagring och rörledningar, visualisering och analytics-verktyg, komplicerad behandling och maskinlärande algoritmer för att komma till insikter, om du bara kan prenumerera på en plattform som gör allt detta för dig?

Detta är en lockande möjlighet för organisationer att se detta som ett sätt för sida att kliva all komplexitet och kostnader i samband med få in-house kompetens som krävs för att ställa något som detta upp på egen hand.

Räknaren argumentet skulle vara att om inte alla organisationer som är digitala och data-driven redan, de kommer vara en stor del i den nära framtiden. Så att lägga ut allt som skulle kanske inte vara mycket klokt — för att inte nämna att inte alla kommer att vara villiga eller har möjlighet att lasta av allt till molnet, så det finns några frågor som är förknippade med detta.

Oväntat, nyckeln finns i denna kategori kommer från moln leverantörer som AWS, Microsoft Azure, IBM Watson, och Google Cloud Platform, men det finns också fristående leverantörer som DataBricks och Qubole med sitt eget värde proposition. Hadoop leverantörer Cloudera, Hortonworks, och MapR är också övergår till att detta utrymme, som de inser att det är inte så mycket om Hadoop längre, men vad du kan göra med det som är viktigt.

2. Flytta upp analytics stack

Traditionellt, när man talar analytics, folk skulle tro att ett datalager, rapporter, instrumentpaneler, och på sistone också visuella gränssnitt, widgets, och så vidare. Med andra ord, att se vad som har hänt i ditt område av intresse, och kanske få en uppfattning om varför det har hänt genom att borra ner och korrelera.

Medan inget av det, som går under namnet beskrivande och diagnostiska analytics respektive har gått bort, det är förra årets nyheter. Det är ganska mycket en tanke dessa dagar, och så många vanliga Dödliga är redan väl bevandrade i konsten att data-driven analys, det kan knappast vara en särskiljande faktor för organisationer.

Som beskrivande och diagnostiska analytics blir standardiserad, vi går upp stacken till automatisk och normativ analys. Prediktiv analys handlar om att kunna förutspå vad som kommer härnäst baserat på vad som hänt hittills, medan normativa analytics handlar om att ta rätt handlingssätt för att göra ett önskvärt resultat hända.

Predictive analytics normalt använder maskininlärning (ML), en teknik baserad på användning av tidigare uppgifter att träna algoritmer för att förutsäga framtida data, snarare än hand-crafting dem processuellt som i traditionell systemutveckling. Normativ analytics är ett ännu mer komplicerade steg som utan tvekan gränser på AI, och mycket få har möjlighet att utnyttja vid denna tidpunkt.

Som har gjorts före explosionen i-applikationer, och hype, för ML är inte så mycket på grund av framsteg i algoritmer, men mer på grund av det faktum att genom att vi nu har samlat tillräckligt med data och processorkraft för att göra ML lönsamt i många fall.

Detta utrymme är verkligen exploderar, och omfattar allt från ML bibliotek som Gnista MLLib, Caffe2, TensorFlow, och DeepLearning4J människor kan använda för att bygga sin egen ML algoritmer och program från grunden, för att inbäddade analytics ramar som Salesforce Einstein, SAP Hana, eller GoodData som erbjuder sådana möjligheter i sin egen miljö, namn som Amazon, Facebook, Uber, och YouTube är välkända exempel på tillämpningar och ibland bidrag på detta område.

1. Maskinen lärande återkoppling

Förändringstakten är katalyserad och snabbare i stort med uppgifter som sig själv, i en självuppfyllande profetia av typer: data-driven produkt -> mer data-bättre insikter -> resultat -> mer investeringar -> bättre produkt -> mer data. Så medan några fortfarande kämpar för att ta itu med grundläggande frågor som rör insamling och lagring av data, styrning, säkerhet, organisationskultur, och arbetsgrupp, andra är mer oroliga med den högre änden av big data hierarki av behov.

Stycket ovan är en ordagrann kopia av vad vi konstaterade förra året, och om något, vad det beskriver har blivit ännu mer uttalad, att poängen med att ha the Economist kallar för “en ny strategi för att antitrustregler krävde för data ekonomi.” Nu, varför skulle Ekonom göra detta? Inte data tänkt att bränsle innovation och alla typer av underbara nya program?

Absolut. Innovation och data-driven automatisering drivs av framsteg i ML och AI är omvälvande. Vi har även börjat se spår av att automatisera automatisering 2017, till exempel med ML ramar att bygga ML. Problemet med detta är dock att detta data-driven återkoppling leder också till nya monopol som lämnas därhän.

Det är en svindlande koncentration av uppgifter, kompetens och infrastruktur i händerna av mycket få aktörer, medan brist på medvetenhet och handling innebär att gapet är benägna att hålla på att vidgas. Och de få spelare har tydliga agendor som inkluderar en sak: sig själva. Så att sätta blind tro på data-driven innovation och automatisering innebär att vara dig för ett brutalt uppvaknande.

“Jag har inte träffat en enda VD, Deutsche Bank, JP Morgan, du som sade till mig:” ok, detta kommer att öka vår produktivitet genom att en enorm mängd, men det kommer att ha sociala konsekvenser-vänta, låt oss tänka på det”. Det viktigaste just nu är hur man går mänskligheten till en högre nivå. Om folk inte vaknar inte upp, de kommer att behöva klättra upp — och det är min 2 cent.” — Chetan ‘ Dube, IPSoft VD

“Vi pratar om maskiner tränger undan människor, maskiner förändra de sätt på vilka vi människor fungerar. Vem som äger maskinerna? Vem ska äga maskinerna? Vi kanske måste tänka om är det sätt på vilket de arbetstagare som arbetar med maskiner är en del ägare av maskiner.” – Laura Tyson, tidigare Ordförande i USA: s President ‘ s Council of Economic Advisers

Relaterade Ämnen:

Hantering Av Data

Digital Omvandling

Robotteknik

Sakernas Internet

Innovation

Affärssystem

0