Nul
Google geeft niet altijd de juiste dingen, of dingen eerst. Maar wanneer Google zet zijn zinnen op iets, weet je dat er iets gaat aantrekken van belang. Met Google hebben net aangekondigd dat de Cloud Gevolgtrekking API om inzichten te verkrijgen uit de tijdreeks van gegevens, is het een goed moment om te controleren of de opties voor de verwerking van tijdreeksen.
Een tijdreeks is een reeks gegevenspunten geïndexeerd (of in een lijst of in een grafiek weergegeven) in volgorde van de tijd. Meestal is een tijdreeks is een opeenvolging genomen bij opeenvolgende gelijke afstand van elkaar punten in de tijd. Het is dus een opeenvolging van discrete-time data. Voorbeelden van tijdreeksen zijn de hoogtes van de oceaan getijden, de graven van zonnevlekken, en de dagelijkse slotkoers van de Dow Jones Industrial Average.
Ook: Volume, velocity en variety: het Begrijpen van de drie V ‘ s van big data
Dat is hoe Wikipedia definieert time series, en door die definitie zijn de meeste gegevens beginnen op zoek als tijdreeks. Dat is de reden waarom tijdreeks verwerking van gegevens belangrijk is en nog belangrijker zal worden, gaat vooruit: Als u blijven opnemen waarden voor hetzelfde, keer op keer, wat je hebt is een tijdreeks.
Streaming kaders, in de cloud en de tijdreeks van databases
Als dat bekend klinkt, is dat omdat real-time toepassingen zijn het uitgangspunt achter iets waar we al over een veel: Kaders voor streaming, real-time verwerking van gegevens. Als u wilt binnenkrijgen gegevens in real-time, en het toepassen van transformaties en regels om ze te verwerken op de vlieg, streaming kaders kunnen helpen.
En met ZUUR mogelijkheden voor streaming hebben net toegevoegd, wordt dit een levensvatbaar alternatief voor de traditionele databases. Maar hoewel streaming is het verkrijgen van de goedkeuring, niet iedereen heeft het streamen van verwerking in de plaats of het is klaar om te nemen het gewoon nog niet. Als zelfs de leiders in streaming te wijzen, dit vereist een verandering van mentaliteit en software-infrastructuur.
Ook: Big Data 2018: Cloud-opslag wordt de feitelijke gegevens meer
Dus, als u uw tijdreeksen van gegevens in plaats van de een of andere manier, en je bent op zoek analyseren om inzicht te krijgen achteraf, hoe kunt u dit doen naast streaming kaders?
Met de cloud-de de facto-opslag voor een groot deel van de nieuw geproduceerde tijdreeks van gegevens, het hebben van een manier om die gegevens te verwerken in de wolk, waar het leven zou handig zijn. Dit legt Google ‘ s nieuwste aankondiging, evenals het feit dat zowel de AWS en Microsoft Azure, hebben hun eigen aanbod.
Cloud is niet de enige optie, echter. De tijdreeks van databases is een ander, dat kan ook gebruikt worden in de cloud. Dit is een klasse van database-oplossingen ontworpen om de opslag en verwerking van tijdreeksen.
Er zijn veel alternatieven om uit te kiezen, maar niet alle van hen zijn op maat gemaakt te hanteren tijdreeks. Een paar van de top degenen die gereageerd op ZDNet ‘ s verzoek om commentaar op de staat van de unie op de tijdreeks van de verwerking.

Net als alle gegevens, time series data in de cloud met deze dagen. Afbeelding: maxsattana, Getty Images/iStockphoto
Navdeep Sidhu, InfluxData head of product marketing, is zeer aangemoedigd door wat we gezien hebben van Google ‘ s aanbieden:
“We zijn net zo enthousiast als ze zijn in het zien van het platform krijgen aangenomen en hoe het zich ontwikkelt als real het gebruik van bepaalde patronen. Google ‘ s aanwezigheid op de markt en technische inzicht zal ervoor zorgen dat dit platform zal op grote schaal worden gebruikt.
We denken dat dat het hebben van een sterke opslag van gegevens en analyses laag die is ontworpen voor IoT sensor data inslikken, real-time analyses en inzicht is een belangrijk onderdeel van een IoT-platform.”
James Corcoran, SVP van producten, oplossingen en innovatie op Kx, de verkoper achter kdb+, vindt het te vroeg om commentaar te geven op Google ‘ s aankondiging, maar zal worden naar aanleiding van het met grote interesse.
Ook: Amazon Deeplens wil jumpstart machine learning CNET
Ajay Kulkarni, CEO en co-founder bij TimescaleDB, zei hij houdt van innovatie in de data-analyse, en is blij dat Google neemt time-series data serieus:
“We zouden het ermee eens dat het bouwen van een systeem dat de schaal is uitdagend, en dat data-analyse stapels hebben gekregen zo complex dat de vereenvoudiging van hen is een goede zaak.
Dat gezegd hebbende, het aanbieden voelt zich nog steeds erg vroeg. Ik geloof dat hun alleen citaat is van een ingenieur die zegt dat het eruit ziet ‘veelbelovend?’ Afgezien van de looptijd, iets anders aan het project lijkt te ontbreken is een echte query language. Wat niemand wil nog-een-ander-query-taal om te leren. Dat is de reden waarom de data-analyse industrie begint van start te re-standaardiseren terug op SQL.”
De belangrijkste eisen voor de tijdreeks van de verwerking
Maar wat zijn de belangrijkste eisen voor de tijdreeks van gegevens verwerking? Door zijn aard is de time-series data wordt altijd toegevoegd dus het is echt belangrijk dat een technische oplossing is in staat om met een combinatie van streaming, real-time en historische gegevens, zei Corcoran:
“Time-series data heeft de neiging groot te zijn, zodat de prestaties en schaalbaarheid van cruciaal belang zijn. De belangrijkste eisen voor het werken met time-series data, zijn de mogelijkheden tot het analyseren en het aggregeren van de data zeer snel.
kdb+, met een ingebouwde high-performance programmeertaal genaamd q, is uniek gepositioneerd om effectief te werken met time-series data. kdb+, en onze Kx product suite is gebouwd op kdb+, zijn technologieën van de keuze voor de sector van de financiële diensten voor grootschalige, bedrijfskritische handel toepassingen en onderzoek toepassingen voor meer dan 20 jaar.”
Kulkarni benadrukt schaal, prestaties, betrouwbaarheid, gebruiksgemak en SQL:
“TimescaleDB schalen tot 100TB met performante query’ s (d.w.z. de query ‘ s die macht kan een real-time dashboard). Het erft de betrouwbaarheid en gemak-of-gebruik van PostgreSQL. En het is nog steeds de enige open source time-series database ter ondersteuning van de volledige SQL, dat is niet alleen belangrijk [voor] de eindgebruiker, maar ook voor die gebruiker om gegevens te delen binnen de organisatie.”
Integratie en out-of-the-box ondersteuning voor functies voor het bouwen van applicaties op een aantal belangrijke eisen voor de tijdreeks van de verwerking. Beeld: Getty Images/iStockphoto
Sidhu van mening dat er drie belangrijke vereisten voor de verwerking van de gegevens platform voor IoT:
“In de eerste plaats moet worden ontworpen voor de werkelijke tijd. IoT en sensor data is genadeloos real-time en een hoog volume. Het platform moet bieden functionaliteit om patronen te identificeren, de toekomst voorspellen, controle systemen, en voor de inzichten die op deze streaming data om zakelijke waarde in real-time.
Gegevens moeten beschikbaar zijn en queryable zodra het geschreven is, waardoor het gebouw van self-healing en dynamische verlichting-off automatisering.
Ten tweede moet worden bevooroordeeld te zijn voor actie. Basic monitoring is te passief voor de IoT, die vereist dat de juiste gegevens om u een goede observability in uw systemen. Je kunt niet beheren wat je niet begrijpt, en de combinatie van de juiste tijdreeks gegevens en de vooruitgang in de machine learning en analyses maken van automatisering en self-regulering van de acties van de werkelijkheid.
Een IoT systeem moet in staat zijn om acties in gang zetten, uitvoeren van geautomatiseerde functies van de controle, self-regulering, en vormen de basis voor het uitvoeren van acties op basis van voorspellende trends.
Ten derde, het moet schaalbaar zijn. De wereld vraagt systemen die 24x7x365 beschikbaar en kan automatisch schaal up-en down-afhankelijk van de vraag. Zij moeten kunnen worden ingezet in de verschillende infrastructuren zonder onnodige complexiteit.
Ze nodig hebben om optimaal gebruik te maken van hulpbronnen, bijvoorbeeld het houden van alleen wat nodig is in het geheugen, het comprimeren van gegevens op de schijf wanneer het nodig is, en het verplaatsen van minder relevante gegevens te koude opslag voor latere analyse. Ze moeten omgaan met de miljoenen van data punten per seconde.”
De tijdreeks van de database en de wereld: integratie en functies
Wat over andere opties voor de tijdreeks van de verwerking? Corcoran zeiden dat ze hebben veel gezien van de technologieën komen en gaan in de afgelopen jaren, waaronder NoSQL en Hadoop-gebaseerde toepassingen, maar de meeste van deze oplossingen zijn van het slecht presteren met time-series data op schaal.
Kulkarni ook toegegeven er zijn vele opties die vandaag voor het opslaan van time-series data. Sommige van hen, zoals datawarehouses en meren, zei hij, zijn gebouwd om de schaal, maar ten koste van de prestaties. Anderen, voegde hij eraan toe, bouwen voor de schaal, maar offeren betrouwbaarheid en gemak-van-gebruiken om er te komen.
Ook: Big data architectuur: het Navigeren door de complexiteit TechRepublic
Sidhu opgemerkt zij hebben gezien implementaties op SQL en NoSQL databases, zoals Cassandra, MongoDB, en HDFS. Maar hij ging aan toe te voegen ze zijn allemaal ook voor algemene doeleinden voor het verwerken van de unieke eisen van vandaag een nieuw type groot volume, streaming-gegevens worden uitgezonden door de sensoren.
Waar meningen onderdeel manieren is op-query-taal. Inderdaad, query language is een belangrijke eigenschap voor elke database. Terwijl Corcoran en merkte op hoe kdb+ programmeertaal stelt gebruikers in te voeren krachtige analyse, zonder te veel schrijven van code, Kulkarni benadrukt ondersteuning voor geo-ruimtelijke gegevens en SQL. InfluxDB heeft zijn eigen query language, InfluxQL.
Net als in elke andere database query language is een belangrijk aspect van de tijdreeks van databases.
Een ander belangrijk punt is de integratie, en out-of-the-box ondersteuning voor functies die helpen met het bouwen van applicaties, zoals anomaly detectie. Kulkarni opgemerkt dat TimescaleDB lijkt PostgreSQL aan de buitenkant, maar is ontworpen voor time-series aan de binnenkant:
“Dit betekent dat iets dat werkt met PostgreSQL werken met TimescaleDB uit de doos. Deze beschikt over aansluitingen voor Apache Kafka, Apache Vonk, Tableau, en nog veel meer. Omdat het gebruik en bediening van TimescaleDB is net zoals PostgreSQL, het is gemakkelijk om te bouwen aan een verscheidenheid van toepassingen op de top.”
Corcoran opgemerkt kdb+ is een open-source-interfaces en plugins voor de meest gebruikte messaging oplossingen, met inbegrip van Kafka en Vonk, en biedt ook de stuurprogramma ‘ s voor populaire statistiek en modellering producten zoals R, Matlab, Python:
“Kdb+ is bekend om zijn vermogen om het vastleggen, analyseren en opslaan van hoogfrequente tijdreeksen van gegevens, bijvoorbeeld uit duizenden van de IoT sensoren, het uitvoeren van algoritmes in real-time om te vergelijken streaming gegevens met historische snapshots voor de opsporing.”
Sidhu vermeld Telegraf, InfluxDB open-source plugin-technologie bron gegevens en evenementen van meer dan 200 soorten endpoints: “DBs, logboeken, netwerk stats, systeem, statistieken, enz. Het eenvoudig te pluggen in Kafka – en Vonk – gebaseerde bronnen, evenals de stromen van gegevens in InfluxDB voor inname en verdere analyse en waarschuwing,” Sidhu zei.
De toekomst van de tijdreeks van databases
Dat is allemaal prima en goed, maar als de tijd-series-opslag en-verwerking is dus belangrijk, ook dit roept de vraag op: Do tijd-serie systemen voor de verwerking een op de toekomst van hun eigen, of zullen ze uiteindelijk deel gaan uitmaken van het aanbod van alle databases en data processing systemen, als we verhuizen naar real-time toepassingen?
Ook: Wat te doen als big data te groot wordt TechRepublic
In andere woorden, wordt de time-series databases worden uiteindelijk opgenomen door andere leveranciers, zoals onze ZDNet co-bijdrage Tony Baer heeft voorspeld zal gebeuren met GPU-databases bijvoorbeeld?
“Als we verder in de richting van meer real-time systemen, time-series verwerking wordt steeds meer mainstream, en meer centraal toepassingen. Het hebben van de mogelijkheid om te combineren time-series data met andere soorten gegevens die van levensbelang zal zijn,” Corcoran zei, toen hem gevraagd werd.
Tijdreeksen databases zijn in een stroomversnelling gekomen. Maar hoeveel van hen kunnen de toekomst van hun eigen? Beeld: DB-Motoren
Sidhu gewezen op de stijging in de rente op DB-Motoren om te suggereren dat moment serie databases zijn hier om te blijven en zullen winnen aan populariteit:
“Dit is gedreven door het verplaatsen van de instrumentatie in de fysieke en virtuele wereld. De geschiedenis is doorspekt met voorbeelden van nieuwe technologieën en platforms worden gemaakt door het veranderen van de werkbelasting.
Traditionele databases moeten nog worden aangepast aan de juiste ondersteuning tijdreeksen van gegevens in de kern. Het toevoegen van tijd-stempel data support aan bestaande platforms zal nooit de schaalbaarheid en het gemak-van-gebruiken voor deze nieuwe toepassingen.”
Kulkarni van mening dat alle gegevens, is fundamenteel time-series data, en dat de database en data-verwerking markt uiteindelijk zal krijgen geabsorbeerd door time-series analysis tools:
“Dit lijkt misschien gek, maar als je er over nadenkt, elk gegevenspunt heeft een tijdstempel en analyseren van gegevens over deze timestamps kunt u zien hoe uw gegevens wijzigen. In andere woorden, de tijd-serie is de hoogste fidelity gegevens kan vastleggen. Dus, als je niet het opslaan van je gegevens in de raw-tijd-serie-indeling, je gooien waardevolle informatie weg”.
Dit is een gewaagde uitspraak inderdaad. Van onze kant, laat ons er rekening mee dat slechts een paar items op de lijst van time series data bases commerciële leveranciers en steun achter hen. Velen van hen zijn open source projecten.
Ook: Hoe te bouwen van een business architectuur voor uw big data TechRepublic
Terwijl vaak deze projecten zijn het resultaat van jaren van ontwikkeling, het feit dat de meerderheid lijkt niet te zijn commerciële entiteiten achter hen kan een indicator als de marges in deze markt is voor autonome groei. In ieder geval, time series verwerking is hier om te blijven. Hoe het precies zal ontvouwen? Alleen de tijd zal het leren.
Vorige en aanverwante dekking:
Er is geen rol voor de AI of data science: dit is een team inspanning
‘Hoe quote-to-cash-werken in een ERP-is niet iets dat je kunt leren van een data scientist in twee dagen.’
AI: Het uitzicht vanuit de Chief Data Science Office
Het is een uitdaging om gegevens wetenschappers waar je ze nodig hebt. En als je het beheren van een AI-project, beter worden voorbereid voor de handling van de bewegende doelwitten. Dit zijn enkele resultaten van een enquête van de chief data wetenschappers en analyses officieren die we onlangs gesloten.
Kennis grafieken voorbij de hype: het Verkrijgen van kennis in en uit grafieken en databases
Wat zijn precies de kennis grafieken, en wat is met alle hype over hen? Leren naar elkaar hype van de realiteit, het definiëren van verschillende soorten grafieken, en het kiezen van de juiste tools en database voor uw gebruik is essentieel als je wilt om te worden als de Airbnbs, Amazones, Googles en LinkedIns van de wereld.
Wat te doen met de gegevens? De evolutie van de gegevens platforms in een post-big data-wereld
Thought leader Esteban Kolsky neemt op de grote vraag: Wat zal de gegevens platforms lijken nu dat big data-de hype voorbij is en big data “oplossingen” zijn bij de hand?
Verwante artikelen:
Het verleden, het heden en de toekomst van streaming: Flink, Vonk en de gangHortonworks onthult stappenplan te maken Hadoop cloud-nativeArcadia Gegevens brengt natuurlijke taal query om de gegevens lakeThis opstarten denkt dat hij weet hoe de snelheid van real-time analyses op het ton van de gegevens
Verwante Onderwerpen:
Big Data Analytics
Innovatie
CXO
Kunstmatige Intelligentie
Enterprise Software
Opslag
0