Behandling af tidsserie data: Hvad er mulighederne?

0
218

Nul

Google gør ikke altid tingene rigtigt, – eller få at ting først. Men når Google sætter sine seværdigheder på noget, du ved, at noget er ved at tiltrække interesse. Med Google har netop annonceret sin Cloud Inferens API til at afdække indsigter fra tidsserie data, er det en god tid til at tjekke muligheder for behandling af tidsserie data.

En time serien er en serie af datapunkter indekseret (eller opført eller tegnet) i kronologisk orden. Mest almindeligt, er en gang-serien er en sekvens, der optages på hinanden følgende punkter med lige stor afstand i tid. Det er således en sekvens af discrete-time data. Eksempler på tidsserier er højder af tidevand, tæller af solpletter, og den daglige lukning værdien af Dow Jones Industrial Average.

Også: Volume, velocity, og udvalg: Forståelse af de tre V ‘ s af big data

Det er, hvordan Wikipedia definerer tidsserier, og af denne definition, er de fleste data, der begynder at ligne tidsserier. Det er derfor tidsserie data behandling er vigtig, og det bliver endnu mere vigtigt at gå frem: Hvis du holder registrering værdier for den samme ting, tid efter tid, hvad du har, er en tidsserie.

Streaming rammer, cloud, og tidsserier databaser

Hvis det lyder bekendt, er det fordi real-time applikationer er den forudsætning bag noget, vi har været der dækker en masse: Rammer for streaming, real-time databehandling. Hvis du ønsker at indtage data i realtid, og anvende transformationer og regler, at behandle dem på flue, streaming rammer, der kan hjælpe.

Og med SYRE muligheder for streaming, der bare bliver tilføjet, det bliver et levedygtigt alternativ til traditionelle databaser. Men selv om streaming vinder vedtagelse, ikke alle har streaming forarbejdning i stedet, eller er klar til at indføre det bare endnu. Som ledere i streaming påpege, at dette kræver en ændring af tankegang og software infrastruktur.

Også: Big Data 2018: Cloud storage bliver de facto data sø

Så, hvis du har din tidsserie data på plads på en eller anden måde, og du ønsker at analysere det at få indsigt efterfølgende, hvordan kan du gøre dette udover streaming rammer?

Med cloud ved at blive de facto opbevaring for en stor del af nyligt producerede tidsserie data, at have en måde at behandle data i skyen, hvor det liv vil komme i handy. Dette forklarer Google ‘ s seneste bekendtgørelse, samt det faktum, at både AWS og Microsoft Azure har deres egne tilbud er der.

Cloud er ikke den eneste mulighed, dog. Tidsserier databaser er en anden, — der kan også bruges i skyen. Dette er en klasse af database løsninger, der er designet til at håndtere opbevaring og behandling af tidsserie data.

Der er mange alternativer at vælge imellem, men ikke alle af dem er bygget til at håndtere tidsserier. Et par af de bedste dem reagerede på ZDNet ‘ s anmodning for en kommentar om situationen i unionen på tidspunktet serie behandling.

cloudgrowth.jpg

Ligesom alle data -, tidsserie-data live i sky i disse dage. Billede: maxsattana, Getty Images/iStockphoto

Navdeep Sidhu, InfluxData head of product marketing, er meget opmuntret af, hvad vi har set fra Google ‘ s tilbyder:

“Vi er så begejstrede, som de er i at se den platform, få vedtaget, og hvordan det udvikler sig som reelle brugen mønstre opstår. Google ‘ s tilstedeværelse på markedet og teknisk indsigt, vil sikre, at denne platform vil blive udbredt.

Vi tror, at det at have en stærk lagring af data og analytics-lag, der er designet til IoT-sensor data indtagelse, real-time analytics, og indsigt er en vigtig del af enhver IoT-platform.”

James Corcoran, SVP af produkter, løsninger og innovation på Kx, sælgeren bag kdb+, synes, det er for tidligt at kommentere på Google ‘ s udmelding, men vil følge med stor interesse.

Også: Amazon Deeplens ønsker at kickstarte machine learning CNET

Ajay Kulkarni, CEO og co-founder i TimescaleDB, sagde han elsker innovation inden for data-analyse, og er glad for, at Google er ved at tage time-series data alvorligt:

“Vi vil enige om, at opbygge et system, der kan skalere er udfordrende, og at data analyse stakke har fået så komplekse, at en forenkling af dem er en god ting.

Når det er sagt, tilbyder stadig føles meget tidligt. Jeg mener, at deres eneste citat er fra en ingeniør, der siger, at det ser ” lovende?’ Bortset fra løbetid, noget andet projekt ser ud til at mangle, er en reel forespørgsel sprog. Hvad ingen ønsker er endnu-andet-query-sproget til at lære. Hvilket er grunden til de data, analyse-branchen er begyndt at re-standardisere tilbage på SQL.”

Vigtigste krav til tidsserier behandling

Men hvad er nogle af de vigtigste krav for tidsserie data behandling? Af sin art, time-series data er altid at være knyttet til, så det er virkelig vigtigt, at en teknisk løsning er i stand til at håndtere en kombination af streaming, realtids-og historiske data, sagde Corcoran:

“Time-series data tendens til at være stor, så ydeevne og skalerbarhed, der er afgørende. De vigtigste krav til at arbejde med time-series data er evner til at analysere og samler de data, meget, meget hurtigt.

kdb+, med en indbygget høj ydeevne programmeringssprog kaldet q, er unikt positioneret til at arbejde effektivt med time-series data. kdb+, og vores Kx produkt suite bygget på kdb+, har været teknologier valg for den finansielle sektor for stor-skala, kritisk handel applikationer og forskning programmer har i over 20 år.”

Kulkarni understreget skala, performance, pålidelighed, brugervenlighed og SQL:

“TimescaleDB skalaer til 100TB med højtydende søgninger (dvs, forespørgsler, der kan drive en real-time dashboard). Det arver pålidelighed og lethed-i-brug af PostgreSQL. Og er stadig den eneste open source-tid-serie database til støtte for fuld SQL, som er vigtig, ikke kun [til] for slutbrugeren, men også for, at brugeren mulighed for at dele data på tværs af organisationen.”

digital-transformation.jpg

Integration og out-of-the-box understøttelse af funktioner til at bygge applikationer på, er nogle af de vigtigste krav til tidsserier behandling. Billede: Getty Images/iStockphoto

Sidhu mener, at der er tre vigtigste krav til databehandling platform for IoT:

“For det første skal det være konstrueret til tidstro. IoT og sensor data er nådesløst real-time og høj lydstyrke. Platformen skal give funktionalitet til at identificere mønstre, forudsige fremtiden, kontrolsystemer, og få indsigt på dette streaming data til at give virksomheden værdi i real tid.

Data skal være til rådighed og queryable, så snart det er skrevet, så for bygningen af self-healing og dynamisk lys-off automatisering.

For det andet skal der være forudindtaget for handling. Grundlæggende kontrol er alt for passiv for IoT, som kræver den rigtige form for data til at give dig ordentlig observability i dine systemer. Du kan ikke styre, hvad du ikke forstår, og kombinationen af den rigtige tidsserie data og fremskridt inden for machine learning og analytics automatisering og selvregulerende tiltag til en realitet.

En IoT-system skal være i stand til at udløse handlinger, udføre automatiseret kontrol funktioner, være selvregulerende, og give grundlag for at udføre handlinger baseret på intelligent tendenser.

For det tredje bør det være skalerbar. Verden kræver systemer, der er tilgængelige 24x7x365 og automatisk kan skalere op og ned afhængigt af efterspørgslen. De skal kunne anvendes på tværs af forskellige infrastrukturer, uden unødig kompleksitet.

De har brug for at gøre optimal brug af ressourcer, for eksempel kun beholde, hvad der er nødvendigt i hukommelsen, komprimere data på disken, når det er nødvendigt, og bevæger sig mindre relevante data til nedfrysning til senere analyse. De har brug for at beskæftige sig med millioner af data point per sekund.”

Tidsserierne i databasen og verden: integration og funktioner

Hvad om andre muligheder for tidsserier behandling? Corcoran sagde, at de har set en masse af teknologier komme og gå i de seneste år, herunder NoSQL og Hadoop-baserede applikationer, men de fleste af disse løsninger klarer sig dårligt med time-series data på skalaen.

Kulkarni også erkendt, at der er mange muligheder i dag for at gemme time-series data. Nogle af dem, som data warehouses og søer, sagde han, er bygget til at skalere, men på bekostning af ydeevnen. Andre, tilføjede han, bygge i skala, men ofre pålideligheden eller lethed-i-brug for at komme der.

Også: Big data-arkitektur: at Navigere i kompleksitet, TechRepublic

Sidhu bemærkede, at de har set implementeringer på SQL og NoSQL data-butikker, såsom Cassandra, MongoDB, og HDFS. Men han fortsatte med at tilføje, at de er alt for generelle formål til at håndtere de unikke krav i dagens nye type af høj-volumen, til streaming-data, der udsendes fra sensorer.

Hvor udtalelser, der er en del måder er på forespørgsel sprog. Ja, query language er en vigtig egenskab for enhver database. Mens Corcoran bemærkede, hvordan kdb+ programmeringssprog, der giver brugerne mulighed for at udføre kraftfulde analyse uden at skulle skrive en masse kode, Kulkarni understreget støtte til geo-spatial data og SQL. InfluxDB har sin egen query language, InfluxQL.

whysql.png

Som i enhver anden database, query language er et vigtigt aspekt af tidsserier databaser.

Et andet vigtigt punkt er integration, og out-of-the-box understøttelse af funktioner, der hjælper med at bygge applikationer, såsom anomalisøgning. Kulkarni bemærkes, at TimescaleDB ser ud som om PostgreSQL på ydersiden, men er opbygget for tiden-serie på indersiden:

“Det betyder, at noget, der virker med PostgreSQL vil arbejde med TimescaleDB ud af boksen. Dette omfatter konnektorer til Apache Kafka, Apache Gnist, Tableau, og mange flere. Fordi brug og drift TimescaleDB er ligesom PostgreSQL, er det nemt at opbygge en bred vifte af applikationer på toppen.”

Corcoran bemærkes, kdb+ har open source-brugerflader og plugins til de fleste almindeligt anvendte messaging-løsninger, herunder Kafka og Gnist, og tilbyder også drivere til populære statistik og modellering produkter, såsom R, Matlab, og Python:

“Kdb+ er kendt for sin evne til at fange, analysere og gemme høj frekvens tidsserie data, for eksempel fra tusindvis af IoT-sensorer, algoritmer, der kører i real-time for at sammenligne streaming data med historiske snapshots for anomalisøgning.”

Sidhu nævnt Telegraf, InfluxDB ‘ s open-source plugin teknologi, som kan kilde målinger og begivenheder fra de mere end 200 typer af effektmål: “DBs, logs, netværk, statistik, statistik-system osv. Det er nemt sluttes til Kafka – og Spark – baserede kilder, samt vandløb data i InfluxDB for indtagelse, og yderligere analytics og alarmering,” Sidhu sagde.

Den kommende tid serie databaser

Det er alt sammen fint og godt, men hvis time-series opbevaring og behandling er så vigtigt, er dette også rejser spørgsmålet: hvad skal time-series-systemer har en fremtid i deres egne, eller vil de ende med at blive en del af det at tilbyde for alle databaser og systemer, som vi bevæger os mod real-time applikationer?

Også: Hvad gør man, når big data bliver for stor TechRepublic

Med andre ord, vil tid-serie databaser senere blive absorberet af andre leverandører, som vores ZDNet co-bidragyder Tony Baer har forudsagt, vil der ske med GPU databaser, for eksempel?

“Når vi bevæger os i retning af mere real-time systemer, tid-serie behandlinger bliver mere og mere mainstream, og mere centrale for applikationer. At have evnen til at kombinere time-series data med andre typer af data, der vil være afgørende,” Corcoran sagde, når de bliver spurgt.

opera-snapshot2018-09-27124209db-engines-com.png

Tidsserier databaser er ved at vinde momentum. Men hvor mange af dem kan have en fremtid i deres eget? Billede: DB-Motorer

Sidhu påpeget, at det uptick i renter på DB-Motorer, der tyder på, at tiden række databaser, der er kommet for at blive og vil vinde i popularitet:

“Dette er drevet af overgangen til instrumentering i den fysiske og virtuelle verden. Historien er moden med eksempler på nye teknologier og platforme, der bliver skabt på grund af skiftende arbejdspres.

Traditionelle databaser har endnu ikke tilpasset korrekt støtte tidsserie data på kernen. Tilføjelse af tid-stemplet data support til eksisterende platforme vil aldrig give skalerbarhed og brugervenlighed, der kræves for, at disse nye applikationer.”

Kulkarni mener, at alle data, der er grundlæggende time-series data, og at database og databehandling markedet i sidste ende vil blive absorberet af tid-serie analyse værktøjer:

“Dette kan synes crazy, men hvis du tænker over det, hver datapoint har et tidsstempel og analysere data på tværs af disse tidspunkter kan du se, hvordan dine data er ved at ændre. Med andre ord, tid-serien er den højeste troskab af data, man kan fange. Så, hvis du ikke gemme dine data i sin rå tidsserier format, du smider værdifulde oplysninger væk”.

Dette er en fed erklæring, faktisk. På vores del, så lad os opmærksom på, at kun et par poster i listen af tidsserier databaser er kommercielle leverandører og support bag dem. Mange af dem er open source-projekter.

Også: Hvordan til at bygge en forretning arkitektur for din big data TechRepublic

Mens oftentimes disse projekter er resultatet af mange års udvikling, er det faktum, at de fleste ikke synes at have kommercielle virksomheder bag dem, kan være en indikator for, at margenerne for dette marked for uafhængige vækst. I alle tilfælde, tid-serien behandlingen er her at bo. Præcis hvordan det vil udvikle sig? Kun tiden vil fortælle.

Tidligere og relaterede dækning:

Der er ingen rolle for AI eller data videnskab: dette er en holdindsats

“Hvordan quote-to-cash-værker i alle ERP-er det ikke noget, at du kan lære en data videnskabsmand i to dage.’

AI: udsigt fra Chief Data Videnskab Kontor

Det er udfordrende at få data forskere, hvor du har brug for dem. Og hvis du administrerer en AI-projekt, bedre at være forberedt til håndtering af bevægelige mål. Disse er nogle af resultaterne af en undersøgelse af chief data forskere og analytics-officerer, at vi for nylig indgået.

Viden grafer ud over den hype: at Få viden i og ud af kurver og databaser

Hvad der præcist er viden grafer, og hvad er der med al den hype omkring dem? At lære at skelne fra hinanden hype fra virkeligheden, at definere forskellige typer af grafer, og vælge de rigtige værktøjer og database til din use case er afgørende, hvis du ønsker at være som de Airbnbs, Amazoner, Motorbriller, og LinkedIns af verden.

Hvad skal gøre med de data? Udviklingen af data platforme i et indlæg big data verden

Tænkte leder Esteban Kolsky tager på de store spørgsmål: Hvad vil data platforme ser ud nu, at big data ‘ s hype er overstået, og big data “løsninger” er lige ved hånden?

Relaterede historier:

Fortid, nutid, og fremtid streaming: Flink, Gnist, og gangHortonworks afslører køreplan for at gøre Hadoop cloud-nativeArcadia Data, der bringer naturligt sprog forespørgsel til de data, lakeThis opstart mener, at det ved, hvordan til at fremskynde real-time analytics på tonsvis af data

Relaterede Emner:

Big Data Analytics

Innovation

CXO

Kunstig Intelligens

Virksomhedens Software

Opbevaring

0