Data, krystalkugler, kigger briller, og kogende frøer: Gennemgang af 2018, forudsige 2019

0
125

Nul

Kogende frøer. Det er, hvad vi alle er rigtig. Vi opholder sig sætte i vores pulje, mens temperaturen er stigende. Ikke dramatisk, men stille og roligt. Lidt efter lidt, ikke at hoppe vildt, så vi kan være bange, men umiskendeligt stigende. Denne velkendte metafor kan anvendes til en række ting, men her er anledningen er den traditionelle slutningen af år gennemgå det nye år og forudsigelser udstyrsstykke.

Også: MemSQL 6.7 bringer gratis tier og ydeevne ekstraudstyr: Transaktioner for ingenting, og hurtigere forespørgsler gratis

Ved første, sank dybt, som vi er i konstant flow af nye udviklinger, kun et par ting kom til at tænke på som den mest slående om 2018. Ved dybere overvejelser, men det viser sig 2018 har været noget af et år, efter at have sat grundlaget for de kommende år. Her er beviset.

Fra big data fleksibel, real-time data

Eller blot data, virkelig. “Big data” moniker har haft sin tid, og dens formål. Det blev opfundet i en tid, hvor mængden af data, variation, hastighed og pålidelighed var eksploderer. Det hjalp med at indfange og formidle betydningen af disse egenskaber af data på skalaen. Det fungerede som en catch-all buzzword for, hvad der dengang var en ny race af løsninger til lagring og behandling af data, der brød væk fra højborg af relationelle databaser.

Også: ScyllaDB opnår Cassandra har paritet, tilføjer HTAP, cloud, og Kubernetes støtte

Ved nu, NoSQL, Hadoop, og cloud databaser og lagring er hverdagskost. De kompromiser, man har med at gøre, når design og drift af distribuerede data systemer, pænt fanget i teoremer kaldet CAP og BASE, er stadig godt-forstået blandt rækker af mennesker, der arbejder med sådanne systemer.

Ved nu, det er givet: Data fra alle typer af kilder, der er genereret hurtigt, og har til at blive lagret og behandlet på skalaen, on premise og i skyen, og, mere og mere i real-tid. Det er vigtigt at gøre dette for en række årsager, og der er mange muligheder. Så, hvad er det punkt, selv ved hjælp af “big data” længere? Lad os erklære, at denne sag er vundet, og bare gå videre.

istock-666393978.jpg

Data er stor, at meget er givet. Der er nu behov for at være fleksible. (billede: Melpomenem, Getty Images/iStockphoto)

En empirisk regel for data systemer er, at de har brug for 10 år, for at nå modenhed. NoSQL champions såsom Apache Cassandra og MongoDB er at ramme den 10-årige mark; Hadoop er godt forbi det punkt. Mange af de funktioner, sådanne løsninger oprindeligt manglede, såsom SQL og transaktionsbeslutning støtte, er der nu. Leverandører og fusioner er blevet skabt. Protokoller, der er blevet vedtaget af etablerede og efterlignere. Fællesskaber er vokset.

Som realiteter i den underliggende teknologi har ændret sig, arkitekturer og økonomi er under forandring, og baren er i bevægelse for alle. Den fleksibilitet, der kræves for at fungere i multi-cloud og hybrid (on premise og cloud -) miljøer, og evnen til at arbejde med data i real-tid, bliver nøglen.

Database og Hadoop leverandører øger muligheder for deres løsninger til at fungere problemfrit på tværs af mange miljøer. Cloud-leverandører er også bevæger sig i denne retning, at tilføje muligheden for at køre på præmissen versioner af deres løsninger. Kubernetes tegner til at blive de facto-operativsystemet for data-løsninger i alle miljøer. Og streaming af data rammer lover til at blive de facto-gateways for data.

Machine Learning oktober Fest, AI i Massevis

En af de mest kontroversielle mantraer af den æra af store data har været lynhurtig til at gemme alt nu og finde ud af det senere. I en verden, hvor opbevaring er dyrt, lagring af data skal være omhyggeligt designet på forhånd, og ændringerne er en smerte, det giver ikke mening. Det er ikke nødvendigvis den verden, vi lever i i dag, men hvad kan markere et afgørende slag for denne tilgang er machine learning.

Også: Manyverse og Sladder: En menneske-centreret teknologi stakken for sociale applikationer

Det er næsten umuligt at gå glip af machine learning buzz og succes historier derude. Machine learning er i stigende grad bliver brugt til at drive alt fra detailhandel og selvkørende biler til sport og underholdning. En ting alle disse machine learning programmer har til fælles er, at de har brug for troves af data, til at træne de modeller, der anvendes til at drive dem. De gamle fakturaer, for eksempel? De kan komme i handy, hvis du ønsker at træne en regnskabsmæssig model.

istock-1019205322.jpg

AI er ikke alle om machine learning, og machine learning er ikke alle om rammer. Men de er sikker på at hjælpe, og der er masser af valg. (Billede: metamorworks, Getty Images/iStockphoto)

Den anden ting du skal, naturligvis, er en machine learning-bibliotek til at hjælpe med at bygge disse modeller. Dette er grunden til, at der er så mange rammer omkring disse dage, og at vælge den rigtige til dine behov, er ikke let. Sværvægtere som Facebook kan tillade sig blot at bygge deres egen. Facebook ‘ s nye PyTorch ramme, konsolidering af tidligere arbejde på Caffe2, blev udgivet i oktober, men det er langt fra den eneste.

MLFlow blev udgivet af skaberne af Apache Spark med vægt på fordeling, og open source hurtigt.ai kom ud af stealth-i håb om at demokratisere machine learning. AWS annonceret opdateringer til sine SageMaker bibliotek, og Google har forbedret sin egen tilbyder med AutoML, AI Hub og Kubeflow. Neuton kom ud af ingenting, der hævder at være hurtigere, mere kompakt og mindre krævende end noget AWSs, Googles og Facebooks verden har.

Vigtige, da de kan være, vil disse rammer er ikke, hvad machine learning handler om. Ud over at have den rette ekspertise og data til at træne de modeller, den rigtige infrastruktur og implementering proces skal være på plads. Tilføjelse af mennesker i løkken er en strategi, der kan bruges til at integrere maskine læring i organisationer. Picking den rigtige programmeringssprog til dine behov er vigtige. Men glem ikke: Machine learning ikke er lig med AI, og det tager mere end data og kode for at komme der.

Software 2.0, Beregne 2.0

Effekten af machine learning er dyb, ændring af paradigme i alt, herunder software i sig selv. Det er officielt: Vi er på vej ind i Software 2.0 æra. Selv om størstedelen af den software, vi bruger i dag, er gamle-fashionabelt deterministisk, der kan være ved at ændre sig. Software bliver cloud-indfødte, data-drevet, og bliver automatiseret sig selv.

Også: Temmelig lavt niveau, temmelig stor deal: Apache Kafka og Sammenflydende Open Source gå mainstream

Software, som vi kender det er grundlæggende blevet en sæt af regler, eller processer, der er kodet som algoritmer. Selvfølgelig, over tid, dens kompleksitet, har været stigende. Api ‘ er aktiveret modulopbygget software udvikling og integration, hvilket betyder, isolerede stykker af software, der kan kombineres og/eller repurposed. Dette øgede værdi af software, men på bekostning af en stigende kompleksitet, som det gjorde opsporing afhængigheder og interaktioner ikke er trivielt.

Men hvad sker der, når vi installere software baseret på machine learning metoder er forskellige. Snarere end indkodning af et sæt af regler, vi tog modeller på datasæt, og slip den i naturen. Når sådanne situationer opstår der ikke i tilstrækkelig grad er repræsenteret i de data, resultaterne kan være uforudsigelig. Modeller bliver nødt til at være re-uddannet og godkendt, og software engineering og operationer for at udvikle sig til at beskæftige sig med denne nye virkelighed.

processsmall.jpg

Opbygning af software, der bruges til at være en deterministisk, om end gradvist mere komplicerede ting. Men der er under forandring.

Machine learning er også med til at forme udviklingen af hardware. For en lang tid, hardware arkitektur har været mere eller mindre fast, med Cpu ‘ er bliver deres omdrejningspunkt. Det er ikke tilfældet længere. Machine learning arbejdsmængder fordel specialiseret chips, som vi normalt henvise til som AI chips. Nogle er allerede kalder dette Beregne 2.0. Gpu ‘ er er det mest almindelige eksempel på en specialiseret chip, men de er ikke de eneste spil i byen.

Intel arbejder på at få Fpga ‘ er i form til at blive en farbar vej for machine learning. Google er ved at lægge sin vægt bag sin specialfremstillede TPU chips. AWS er at opdatere sin sky og frigive en brugerdefineret chip af sine egne kaldet AWS Inferentia. Og der er en masse af nystartede virksomheder, der arbejder på nye AI chips, med den mest high-profil blandt dem, GraphCore, der netop er nået til unicorn status og udgivet sine chips til at vælge partnere.

Regulering, styring, licenser

Hvad organisationer gør med deres data, er ikke længere noget, der kun vedrører en flok nørder. Data har magt til at blande sig valg, give eller nægte adgang til finansiering og sundhedsydelser, gøre eller bryde omdømme og formuer, gøre en forskel for virksomheder og enkeltpersoner. Det er indlysende, at en vis form for regulering er der behov for noget, der er blevet det centrale for samfundet som helhed.

Også: Apache Gnist skabere sat sig for at standardisere fordelt machine learning uddannelse, udførelse og implementering

EU fører an med GDPR, som trådte i kraft i 2018. GDPR er i realiteten en global regulering, som det vedrører alle, der er aktive i EU, eller at have interaktioner med EU-borgere. Som den første forordning på dette område med så vidtrækkende konsekvenser, GDPR er blevet mødt med frygt, usikkerhed og tvivl. Ved at tilskynde enkeltpersoner til at tage kontrol over deres data, GDPR kræfter organisationer med at få deres data governance højre.

Organisationer har brug for at være i stand til at besvare spørgsmål såsom, hvor deres data kommer fra, hvordan det bruges, og om brugerne er bevidste om, og har givet samtykke til, at deres data er indsamlet og behandlet, og til hvilke formål. For at gøre dette, de har brug for at have de rigtige processer og metadata på plads. Data slægt og adgang til rettigheder og politikker, der er en del af, hvad vi henviser til under den paraply begreb, data governance: at Vide, hvor data kommer fra, hvad det bruges til, hvornår, hvorfor og af hvem.

588307-how-gdpr-will-impact-the-ai-industry.jpg

Forordning som GDPR kan fremme innovation i maskinindlæring og kunstig intelligens, til at gøre dem tolkes. (Billede: PC Mag)

Counter-intuitive, som det kan synes, forordning som GDPR kan fremme innovation. For at gøre leverandører svare til efterspørgslen på markedet, ved at gøre data governance en første-class citizen, tilføjelse af funktioner til at støtte det. Desuden, i machine learning, ved at øge fokus på explainability. Med de lovgivningsmæssige rammer for områder som finans-eller sundhedsydelser, gennemsigtig, forklares beslutninger blevet et must-have.

Vi er lige begyndt at se effekten af forordning om data-relateret teknologi og business. I 2019 PSD2, en anden EU-forordning, der styrker de finansielle institutioner til at åbne deres oplysninger til tredje part vil blive effektiv. Dette kommer til at have overlappende effekter på markedet. Og lad os ikke glemme den berygtede EU-lovgivning om Ophavsret Direktiv, som er ved at håndhæve foranstaltninger, såsom upload filtre og et link skat.

Skal læse

Toyota og SoftBank er gået sammen for at bringe big data, mobilitet CNET
Top 10 big data rammer, der anvendes i virksomheden TechRepublic

Sidst, men ikke mindst, ser vi data platforme tage til efterretning af den virkelighed, der er sky, og på skyen krybskytteri, eller “strip mining”: Den indtrængende af open source/open core platforme ved at cloud-udbydere. Udover at tilpasse deres tilbud til at køre i flere miljøer, som administrerede tjenester, eller iPaaS, data leverandører reagerer ved at tilpasse deres licenser, også. Sammenflydende og Tidsplan har gjort det, vi forventer at se mere af dette.

De År af Grafen

Ringer til 2018 år af grafen var vores oplukker sidste år. Du kan kalde det fordomme, eller fremsyn, da vi har et særligt forhold til graf databaser. Enten måde, det viser sig, at vi ikke var de eneste. Graf databaser har hele tiden været den førende kategori i form af vækst og renter, fanget af DBEngines-indekset siden 2014.

Også: Påståelig og åbne machine learning: nuancerne ved at bruge Facebook ‘ s PyTorch

Meget af det har at gøre med AWS og Microsoft at frigive en grafdatabase produkter, med AWS Neptun vil GA i Maj 2018 og deltage Azure Kosmos DB i denne livlige marked, der har mere end 30 leverandører i alt. Det er klart, de har hver deres styrker og svagheder, og ikke alle af dem er egnet til alle use cases.

Picking up fra industrien kloge hoveder, Gartner i prisen Viden Grafer i sin hype cycle i August 2018. Om dette giver mening for en teknologi, der er mindst 20 år gamle, og hvad alt dette betyder, er en anden diskussion, men faktum er: Graf er kommet for at blive. Graf virkelig er at gå mainstream, med analytikere som kolleger ZDNet bidragyder/Ovum, analytiker Tony Baer giver det et shoutout.

ven5small.png

De År af Grafen er kun at komme i gang

Vi ser, at de kan lide af Airbnb, Amazon, eBay, Google, LinkedIn, Microsoft, Uber og Zalando bygning grafer, og en forbedring af deres service og deres bundlinie som et resultat. Vi ser innovation på dette område, med machine learning, der anvendes til at forny og supplere de traditionelle teknikker på web-skala. Vi ser nye standardisering indsats, der sigter mod at tilføje til eksisterende standarder i regi af W3C.

Vi ser, leverandører upping deres spil, og deres finansiering, og de grafer, der undersøges som en grundlæggende metafor på, hvor software og hardware til en ny æra, der kan blive bygget. Vi vil se mere af dette i 2019, og vi vil være her til at holde styr på.

Tidligere og relaterede dækning:

AI chip enhjørning, der er ved at revolutionere alt har beregningsmæssige Graf i sin Kerne

AI er den mest forstyrrende teknologi i vores egen levetid, og AI chips er de mest forstyrrende infrastruktur for AI. Ved at måle virkningen af, hvad Graphcore er ved at massivt slip i verden er ud over enhver beskrivelse. Her er, hvordan at skubbe grænserne for Moore ‘s Lov med ipu’ er virker, og hvordan det kan sammenlignes med dagens state of the art på hardware og software-niveau. Bør etablerede Nvidia bekymre sig, og brugerne glæde sig?

Stigningen i Kubernetes er indbegrebet af overgangen fra big data fleksible data

Kan en platform, der er udtænkt til at støtte kører midlertidige applikationer bliver operativsystemet valg til at køre data arbejdsmængder i multi-cloud og hybrid cloud-æra? Ser ud som om det, men vi er ikke bare, at der endnu.

Ønsker at øge kundens engagement? Investere i integration af data, metadata, data governance, siger Informatica

Hvad betyder en Data-Hub Reference Arkitekturen har at gøre med Kundens Engagement? En masse, ifølge Informatica, der ønsker at supplere Adobe, Microsoft og SAP, i deres Åbne Data Initiativ. Det store spørgsmål er imidlertid, om dette har ben.

Real-time databehandling fik bare flere muligheder: LinkedIn udgivelser Apache Samza 1.0 streaming ramme

Samza er nu ved nær-paritet med andre Apache open source-streaming rammer såsom Flink og Spark. De vigtigste funktioner i Samza 1.0 er SQL og et højere niveau API, vedtagelse af Apache Stråle. Hvad betyder det for dette rum, og hvordan vælger du?

Black Friday og Cyber mandag betyder mere svig; Machine learning til undsætning?

På Black Friday og Cyber mandag, og andre detail-peak point for køb se nye højder hvert år, og forsøg på bedrageri, følger trop. Hvordan kan data og domæne viden udnyttes til at safegueard forbrugere og detailhandlere?

Fra big data AI: Hvor er vi nu, og hvad er vejen frem?

Det tog AI bare et par år til at gå fra understrøm til mainstream. Men på trods af hurtige fremskridt på mange fronter, AI stadig er noget, som få forstår og endnu færre kan mestre. Her er nogle tips om, hvordan at gøre det arbejde for dig, uanset hvor du er i din AI rejse.

Relaterede Emner:

Big Data Analytics

Innovation

CXO

Kunstig Intelligens

Virksomhedens Software

Opbevaring

0