SVENSKA

Bearbetning time series data: Vad finns det för alternativ?

114

Noll

Google har inte alltid få saker och ting rätt, eller få saker först. Men när Google siktar på något, du vet att något är på väg att locka intresse. Med Google har just meddelat sitt Moln Slutledning API för att avslöja insikter från time series data, det är ett bra tillfälle att kolla alternativen för behandling av tidsserier.

En gång-serien är en serie av data poäng indexerade (eller anges eller visas) i tid för. Oftast handlar det om en tidsserie är en sekvens som tas på varandra jämnt fördelade punkter i tid. Det är alltså en sekvens av diskreta data. Exempel på tidsserie höjder av havets tidvatten, räknas av solfläckar, och den dagliga utgående värde av Dow Jones Industrial Average.

Också: Volume, velocity och variety: att Förstå de tre V: s av big data

Det är hur Wikipedia definierar tid serie, och med den definitionen, de flesta data börjar se ut som tidsserier. Det är därför time series data bearbetning är viktiga och kommer att bli ännu viktigare framöver: Om du håller inspelning värden för samma sak, gång efter gång, vad du har är en tidsserie.

Streaming ramar, molnet och tidsserier databaser

Om det låter bekant, det är för realtidsapplikationer är förutsättningen bakom något som vi har tagit upp en hel del: Ramar för strömmande data i realtid bearbetning. Om du vill dricka data i realtid, och tillämpa förändringar och regler för att bearbeta dem på fluga, streaming ramar kan hjälpa till.

Och med SYRA funktioner för streaming med bara läggs, detta blir ett lönsamt alternativ till traditionella databaser. Men även om streaming är att få antagande, inte alla som har streaming-behandling på plats, eller är redo att anta det bara ännu. Som även ledarna i strömmande påpeka, detta kräver en förändring av inställning och programvara för infrastruktur.

Också: “Big Data 2018: Cloud lagring blir de facto-data sjön

Så, om du har din tidsserier på plats på något sätt, och du funderar på att analysera det för att få insikter i efterhand, hur kan du göra detta förutom strömmande ramar?

Med cloud bli de facto-lagring för en stor del av nyproducerade tid serie data, med ett sätt att bearbeta data i molnet där det bor skulle komma väl till pass. Detta förklarar Googles senaste meddelande, samt det faktum att både AWS och Microsoft Azure har sina egna erbjudanden.

Molnet är inte det enda alternativet, dock. Tidsserier databaser är något annat — som också kan användas i molnet. Detta är en klass av databas-lösningar är utformade för att hantera lagring och bearbetning av tidsserier.

Det finns många alternativ att välja mellan, men inte alla av dem är specialbyggd för att hantera tidsserier. Ett par av de översta svarat på ZDNet begäran om kommentar om tillståndet i unionen och på tidsserierna behandling.

Navdeep Sidhu, InfluxData chef för marknadsföring, är mycket uppmuntrad av vad vi har sett från Google: s erbjudande:

“Vi är lika glada som de är att se till plattformen får antas och hur den utvecklas som en riktig användning mönster växa fram. Google ‘ s närvaro på marknaden och den tekniska skickligheten kommer att se till att denna plattform kommer att vara stor utsträckning.

Vi tror att ha en stark datalagring och analytics lager som är avsedd för IoT-sensor data förtäring, real-time analytics, och insikt är en förutsättning för att sakernas internet som plattform.”

James Corcoran, SVP av produkter, lösningar och innovation på Kx säljaren bakom kdb+, tycker att det är för tidigt att uttala sig om Googles tillkännagivande, men kommer att följa den med stort intresse.

Också: Amazon Deeplens vill få fart machine learning CNET

Ajay Kulkarni, VD och co-founder på TimescaleDB, sade han älskar innovation i data analytics, och är glad över att Google tar tid-serie uppgifter på allvar:

“Vi skulle gå att bygga ett system som kan skala är en utmaning, och att analys av data stackarna har fått så komplexa att förenkla dem är en bra sak.

Som sagt, de erbjuder fortfarande känns väldigt tidigt. Jag tror att deras enda citatet är från en ingenjör som säger att det ser ” lovande?’ Bortsett från mognad, något annat projektet verkar sakna är en riktig query language. Vad som ingen vill ha är ännu en-annan-fråga-språk att lära sig. Vilket är anledningen till att de data som analysen industrin börjar re-standardisera tillbaka på SQL”.

Viktiga krav för tidsserier behandling

Men vad är några viktiga krav för tidsserier av data bearbetning? Av sin natur, tidsserier data är alltid bifogas, så det är verkligen viktigt att en teknisk lösning som kan hantera en kombination av streaming i realtid och historiska data, sade Corcoran:

“Time-series data tenderar att vara stor, så prestanda och skalbarhet är viktigt. De viktigaste kraven för att arbeta med tidsserier data är förmågan att analysera och sammanställa uppgifter som väldigt, väldigt snabbt.

kdb+, med en inbyggd högpresterande programmeringsspråk som kallas q, är unikt positionerad för att arbeta effektivt med tidsserier av data. kdb+, och våra Kx produkt suite bygger på kdb+, har varit tekniker val för den finansiella sektorn för stora, kritiska applikationer handel och forskning och tillämpningar i över 20 år.”

Kulkarni betonade skala, prestanda, tillförlitlighet, användarvänlighet, och SQL:

“TimescaleDB skalor för att 100TB med hög prestanda frågor dvs. frågor som kan driva en realtid instrumentpanelen). Den ärver tillförlitlighet och enkel användning av PostgreSQL. Och är fortfarande bara öppen källkod tid-serien databas för att stödja full SQL, vilket är viktigt inte bara [för] slutanvändaren, men även för användaren att dela information i hela organisationen.”

Sidhu anser att det finns tre huvudsakliga krav för den behandling av personuppgifter som plattform för sakernas internet:

“För det första, det bör vara utformad för realtid. Sakernas internet och sensor data är skoningslöst real-time och hög volym. Plattformen måste tillhandahålla funktionalitet för att identifiera mönster, förutsäga framtiden, kontrollsystem, och få insikter om denna strömmande data för att skapa affärsnytta i realtid.

Data måste vara tillgängliga och förfrågningsbart så snart som det är skrivet, vilket möjliggör byggandet av self-healing och dynamisk belysning-off automation.

För det andra ska det vara partisk för åtgärder. Grundläggande övervakning är för passiv för sakernas internet, som kräver rätt typ av data för att ge dig rätt observerbarhet i ditt system. Du kan inte hantera det du inte förstår, och kombinationen av rätt time series data och framsteg inom maskininlärning och analytics för att göra automation och självreglerande åtgärder verklighet.

En IoT-systemet måste kunna utlösa åtgärder, utför automatisk kontroll, vara självreglerande, och ge en grund för att utföra åtgärder som bygger på automatisk trender.

För det tredje, den bör vara skalbar. Världen kräver system som finns tillgängliga 24x7x365 och kan automatiskt skala upp och ner beroende på efterfrågan. De måste kunna sättas in över olika infrastrukturer utan onödig komplexitet.

De behöver för att göra optimal användning av resurser, till exempel att hålla bara vad som behövs i minnet, att komprimera data på disk när det behövs, och rör sig mindre relevanta data för att kall lagring för senare analys. De behöver för att hantera miljontals mätpunkter per sekund.”

Tidsseriedatabas och världen: integration och funktioner

Hur är det med andra alternativ för tidsserier behandling? Corcoran sade att de har sett en hel del teknik komma och gå under de senaste åren inklusive NoSQL och Hadoop-baserade program, men de flesta av dessa lösningar fungerar dåligt med tid-serie data i stor skala.

Kulkarni medgav också att det finns många alternativ idag för att lagra tidsserier data. Vissa av dem, som datalager och sjöar, sade han, är byggd för skala, men på bekostnad av prestanda. Andra, tillade han, bygga för skala, men offra tillförlitlighet och användarvänlighet för att få det.

Också: “Big data arkitektur: Navigering komplexiteten TechRepublic

Sidhu noterade de har sett implementationer på SQL och NoSQL lagrar data, till exempel Cassandra, MongoDB, och HDFS. Men han gick med på att lägga till att de är alltför generella för att hantera de unika kraven hos dagens ny typ av hög volym, strömmande data som sänds ut från sensorer.

Där åsikter del sätt är på query language. Ja, query language är ett viktigt inslag för varje databas. Medan Corcoran noterade hur kdb+ programmeringsspråk som tillåter användare att utföra kraftfulla analys-utan att behöva skriva en massa kod, Kulkarni betonade stöd för geo-rumsliga data och SQL. InfluxDB har sin egen query language, InfluxQL.

En annan viktig punkt är integration, och out-of-the-box stöd för funktioner som hjälper till att bygga applikationer, såsom att upptäcka avvikelser. Kulkarni noteras att TimescaleDB ser ut som PostgreSQL på utsidan, men är utformad för tidsserier på insidan:

“Detta innebär att allt som fungerar med PostgreSQL, som kommer att arbeta med TimescaleDB ur lådan. Detta innefattar kontakter för Apache Kafka, Apache Gnista, Tablån, och många fler. Eftersom du använder och operativa TimescaleDB är precis som PostgreSQL, det är lätt att bygga en mängd olika program på toppen.”

Corcoran noteras kdb+ har öppen källkod gränssnitt och plugins för de flesta vanligt förekommande messaging solutions, inklusive Kafka och Gnista, och erbjuder även drivrutiner för populära statistik och modellering produkter såsom R, Matlab, och Python:

“Kdb+ är känd för sin förmåga att fånga, analysera och lagra hög frekvens time series data, till exempel från tusentals IoT-sensorer, kör algoritmer i realtid för att jämföra strömmande data med historiska ögonblicksbilder för att upptäcka avvikelser.”

Sidhu nämns Telegraf, InfluxDB öppen källkod-plugin-teknik som källa för statistik och händelser från mer än 200 olika typer av effektmått: “DBs, loggar, nätverk statistik, system statistik, etc. Det är lätt pluggar in i Kafka – och Spark – baserade källor, liksom strömmar data i InfluxDB för förtäring och ytterligare analytics och varnar,” Sidhu sagt.

Framtiden för tidsserier databaser

Det är allt fint och bra, men om time-serie lagring och bearbetning är så viktigt, detta väcker också frågan: Gör time-series system för behandling har en framtid i sina egna, eller kommer de så småningom att bli en del av utbudet av alla databaser och system för databehandling, som vi går mot real-time program?

Också: Vad göra när big data blir för stor TechRepublic

Med andra ord, kommer gång-serien databaser så småningom upp av andra leverantörer, som vår ZDNet co-bidragsgivare Tony Baer har förutspått kommer att hända med GPU databaser, till exempel?

“När vi går mot mer real-time systems, tid-serien behandling kommer att bli mer mainstream, och mer centralt program. Att ha förmågan att kombinera tidsserier data med andra typer av data kommer att vara avgörande,” Corcoran sa, när du blir tillfrågad.

Sidhu pekade på att den uppgång i räntan på DB-Motorer som tyder på att tidsserien databaser är här för att stanna och kommer att öka i popularitet:

“Detta är drivet av de flytta till instrumentering i den fysiska och virtuella världen. Historia är mogen med exempel på nya tekniker och plattformar som skapas på grund av förändrade arbetsuppgifter.

Traditionella databaser har ännu inte anpassats till ordentligt stöd för time series data på kärnan. Lägga till tid-stämplade data stöd till befintliga plattformar kommer aldrig att ge den skalbarhet och användarvänlighet krävs för att dessa nya tillämpningar.”

Kulkarni anser att alla data är i grunden tid-serie data, och att databasen och data bearbetning av marknaden kommer så småningom att bli uppslukad av gång-serien analys verktyg:

“Detta kan verka galen i början, men om du tänker på det, varje datapoint har en tidsstämpel och analysera data över de tidsstämplar kan du se hur dina data förändras. Med andra ord, tid-serie är den högsta trohet av data som man kan fånga. Så, om du inte lagra data i dess ursprungliga tid-serie-format, du kastar värdefull information bort”.

Detta är ett djärvt uttalande faktiskt. För vår del, låt oss notera att endast ett fåtal poster i listan över tid serie databaser har kommersiella leverantörer och stöd bakom dem. Många av dem är open source-projekt.

Också: Hur man bygger en verksamhetsarkitektur för ditt big data TechRepublic

Medan ofta dessa projekt är resultatet av år av utveckling, det faktum att de flesta inte verkar ha kommersiella aktörer bakom dem kan vara en indikator på att marginalerna denna marknad har för oberoende tillväxt. I alla fall, tidsserier bearbetning är här för att stanna. Exakt hur den kommer att utvecklas? Endast tiden kommer att utvisa.

Tidigare och relaterade täckning:

Det finns ingen roll för AI eller data vetenskap: det här är ett lagarbete

“Hur citat-till-kontanter fungerar i alla ERP är inte något som du kan lära en data scientist i två dagar.’

AI: vy från Chief Data Vetenskap Kontor

Det är en utmaning att få uppgifter forskare där du behöver dem. Och om du hanterar ett AI-projekt, bättre vara beredd för hantering av rörliga mål. Dessa är några av resultaten av en undersökning av chief data forskare och analytics tjänstemän som vi nyligen avslutade.

Kunskap graphs bortom hype: att Få kunskap i och ut diagram och databaser

Exakt vad är kunskap grafer, och vad är det med allt prat om dem? Lära sig att skilja hype från verkligheten, att definiera olika typer av grafer och välja rätt verktyg och en databas för din användning fallet är avgörande om du vill vara som Airbnbs, Amazoner, Googles, och LinkedIns av världen.

Vad man ska göra med uppgifterna? Utvecklingen av plattformar uppgifter i ett inlägg big data världen

Tänkte ledare Esteban Kolsky tar på sig den stora frågan: Vad kommer att data plattformar ser ut nu att big data är hypen är över och big data “lösningar” på sidan?

Relaterade artiklar:

Det förflutna, nuet, och framtiden för streaming: Flink, Gnistan, och gangHortonworks presenterar färdplan för att göra Hadoop cloud-nativeArcadia Data ger naturligt språk frågan till uppgifterna lakeThis start tycker att det vet hur man påskynda realtid analytics på massor av data

Relaterade Ämnen:

Big Data Analytics

Innovation

CXO

Artificiell Intelligens

Affärssystem

Förvaring