ITALIANO

Il tempo di elaborazione dati della serie: Cosa sono le opzioni?

159

Zero

Google non sempre le cose per bene, o cose di prima. Ma quando Google ha messo gli occhi su qualcosa, si sa che qualcosa sta per attirare l’interesse. Con Google visto che ha appena annunciato la sua Nuvola di Inferenza API per scoprire intuizioni da serie storiche di dati, è un buon momento per verificare le opzioni per l’elaborazione di serie storiche di dati.

Una volta che la serie è una serie di punti di dati indicizzati (o elencate o tracciati) in ordine di tempo. Più comunemente, una serie storica è una sequenza presa a successivi punti ugualmente spaziati nel tempo. Si tratta quindi di una sequenza di tempo discreto di dati. Esempi di serie altezze delle maree, i conteggi delle macchie solari, e il quotidiano valore di chiusura dell’indice Dow Jones Industrial Average.

Anche: Volume, velocità e varietà: la Comprensione dei tre V di big data

Ecco come Wikipedia definisce il tempo della serie, e in base a tale definizione, la maggior parte dei dati inizia a cercare come una serie temporale. Ecco perché la serie temporale del trattamento dei dati è importante, e diventerà ancora più importante andare avanti: Se si mantengono i valori della registrazione per la stessa cosa, di volta in volta, quello che hai è una serie temporale.

Streaming quadri, la nuvola, e il tempo di serie database

Se questo suona familiare, è perché le applicazioni in tempo reale sono la premessa alla base di qualcosa che abbiamo coperto un sacco: i Quadri di riferimento per lo streaming in tempo reale di elaborazione dei dati. Se si vuole ingerire i dati in tempo reale, e di applicare le trasformazioni e le regole per la loro elaborazione al volo, streaming di quadri può aiutare.

E con ACIDO funzionalità di streaming, avendo appena aggiunta, questo diventa una valida alternativa ai tradizionali database. Ma anche se lo streaming sta guadagnando adozione, non tutti hanno lo streaming di trasformazione in atto, o è pronto ad adottare, non ancora. Come anche i leader in streaming punto, questo richiede un cambiamento di mentalità e di infrastrutture software.

Anche: i Big Data 2018: Cloud storage diventa de facto dati lago

Quindi, se si dispone di serie storiche di dati in qualche modo, e si sta cercando di analizzare per acquisire conoscenze a posteriori, come si può fare questo, oltre streaming quadri?

Con il cloud diventare de facto di archiviazione per una grande parte della nuova produzione di serie temporali di dati, avere un modo per elaborare i dati nel cloud, dove vive sarebbe venuto a portata di mano. Questo spiega più recente di Google annuncio, così come il fatto che sia AWS e Microsoft Azure hanno le loro offerte.

Il Cloud non è l’unica opzione, tuttavia. Il tempo di serie database è un altro, che può essere utilizzato anche in cloud. Questa è una classe di soluzioni di database progettato per gestire l’archiviazione e l’elaborazione di serie storiche di dati.

Ci sono molte alternative per scegliere da, anche se non tutti coloro che sono costruiti su misura per gestire il tempo della serie. Un paio di quelli superiori risposto a ZDNet richiesta di commento sullo stato dell’unione, su serie temporali di elaborazione.

Navdeep Sidhu, InfluxData responsabile marketing di prodotto, è molto incoraggiato da quello che abbiamo visto da Google che offre:

“Siamo emozionati come sono a vedere la piattaforma di farsi adottare e come si evolve come reale, modelli di utilizzo di emergere. Google presenza sul mercato e acume tecnico assicurare che questa piattaforma sarà ampiamente utilizzato.

Pensiamo che avere una forte archiviazione dei dati e il livello di analisi che è stato progettato per IoT dati del sensore ingestione di analytics in tempo reale, e l’intuizione è un componente chiave di qualsiasi piattaforma IoT.”

James Corcoran, SVP di prodotti, soluzioni e innovazione, Kx, il venditore dietro kdb+, pensa che sia troppo presto per commentare l’annuncio di Google relativo, ma sarà seguito con grande interesse.

Anche: Amazon Deeplens vuole jumpstart macchina di apprendimento CNET

Ajay Kulkarni, CEO e co-fondatore di TimescaleDB, ha detto che ama l’innovazione nell’analisi dei dati, ed è contento che Google sta prendendo i dati di serie temporali sul serio:

“Siamo d’accordo sul fatto che la costruzione di un sistema che può di scala è impegnativo, e che l’analisi dei dati gli stack sono diventati così complessi che la semplificazione loro è una buona cosa.

Detto questo, l’offerta si sente ancora molto presto. Credo che la loro unica citazione è da un ingegnere che dice sembra ‘promettente?’ A parte la maturità, qualcos’altro che il progetto sembra mancare è un vero e proprio linguaggio di query. Quello che nessuno vuole è ancora-un-altra-query-lingua da imparare. Che è il motivo per cui l’analisi dei dati l’industria sta iniziando a ri-standardizzare torna su SQL.”

Requisiti fondamentali per l’elaborazione

Ma quali sono alcuni requisiti chiave per serie temporali di dati di elaborazione? Per sua natura, di una serie temporale di dati viene sempre aggiunto, pertanto, è molto importante che una soluzione tecnica in grado di gestire una combinazione di streaming, in tempo reale e dati storici, disse Corcoran:

“I dati di serie temporali tende ad essere grande, in modo che le prestazioni e la scalabilità sono di fondamentale importanza. Requisiti fondamentali per lavorare con i dati di serie temporali sono la capacità di analizzare e aggregare i dati in modo molto, molto rapidamente.

kdb+, con un costruito in alta performance linguaggio di programmazione chiamato q, è in grado di lavorare in modo efficace con i dati di serie temporali. kdb+, e il nostro Kx suite di prodotti costruito su kdb+, sono stati tecnologie di scelta per l’industria dei servizi finanziari su larga scala, critico applicazioni di trading e applicazioni di ricerca per oltre 20 anni.”

Kulkarni ha sottolineato di scalabilità, prestazioni, affidabilità, facilità di utilizzo e di SQL:

“TimescaleDB scale a 100TB con delle query performanti (cioè, le query che può alimentare un dashboard in tempo reale). Eredita l’affidabilità e la facilità di utilizzo di PostgreSQL. Ed è ancora l’unico open source tempo-serie database di supporto completa di SQL, che è importante non solo per l’utente finale, ma anche per l’utente di condividere i dati in tutta l’organizzazione”.

Sidhu crede che ci sono tre principali criteri per l’elaborazione dei dati piattaforma per l’internet degli Oggetti:

“In primo luogo, essa deve essere progettata per il tempo reale. IoT e dati del sensore è senza pietà in tempo reale e ad alto volume. La piattaforma deve fornire funzionalità per identificare i modelli, predire il futuro, i sistemi di controllo e ottieni tutte le informazioni su questo flusso di dati per fornire valore di business in tempo reale.

I dati devono essere disponibili e interrogabile appena scritto, permettendo la costruzione di auto-guarigione e l’illuminazione dinamica-off di automazione.

In secondo luogo, dovrebbe essere di parte per l’azione. Monitoraggio di base è troppo passivo per l’IoT, che richiede il giusto tipo di dati per fornire una corretta observability nei vostri sistemi. Non si può gestire ciò che non si conosce, e la combinazione di dati di serie storiche e i progressi di apprendimento automatico e di analytics fanno automazione e di auto-regolazione azioni di una realtà.

Un IoT sistema deve essere in grado di attivare azioni, eseguire in modo automatico le funzioni di controllo, di auto-regolazione, e di fornire la base per l’esecuzione di azioni basate su predittivo tendenze.

In terzo luogo, deve essere scalabile. Il mondo richiede sistemi che sono disponibili 24x7x365 e può automaticamente la scala su e giù a seconda della domanda. Essi devono essere in grado di essere distribuite in diverse infrastrutture senza inutili complessità.

Hanno bisogno di fare un uso ottimale delle risorse, per esempio mantenendo solo ciò che è necessario nella memoria, la compressione dei dati su disco, quando è necessario, e muove di meno di dati rilevanti per la conservazione al freddo per un’analisi successiva. Di cui hanno bisogno per affrontare con milioni di punti di dati al secondo.”

Il tempo di serie database e il mondo: l’integrazione e la funzionalità

Per quanto riguarda altre opzioni per le serie in lavorazione? Corcoran detto che hanno visto un sacco di tecnologie di andare e venire ultimi anni tra cui NoSQL e Hadoop-ha basato le applicazioni, ma la maggior parte di queste soluzioni scadenti di serie temporali di dati su larga scala.

Kulkarni ha anche ammesso ci sono molte opzioni oggi per memorizzare i dati di serie temporali. Alcuni di loro, come i data warehouse e laghi, ha detto, sono costruiti per la scala, ma a scapito delle prestazioni. Altri, ha aggiunto, costruire per la scala, ma con il sacrificio affidabilità e facilità di utilizzo, per arrivarci.

Anche: i Big data architettura: Governare la complessità TechRepublic

Sidhu notato che hanno visto implementazioni di SQL e NoSQL archivi di dati, come Cassandra, MongoDB, e HDFS. Ma ha poi aggiunto che sono troppo generici per gestire le particolari esigenze di tipo nuovo, ad alto volume, streaming di dati emessi dai sensori.

Dove le opinioni di parte modi è sul linguaggio di query. Infatti, il linguaggio di query è una caratteristica importante per qualsiasi database. Mentre Corcoran notato come kdb+ linguaggio di programmazione consente agli utenti di eseguire un potente analisi senza dover scrivere un sacco di codice, Kulkarni ha sottolineato supporto di dati geo-spaziali e di SQL. InfluxDB ha un suo linguaggio di query, InfluxQL.

Un altro punto importante è l’integrazione, e out-of-the-box di supporto per le funzioni che consentono la creazione di applicazioni, come ad esempio il rilevamento di anomalie. Kulkarni notato che TimescaleDB sembra PostgreSQL all’esterno, ma è progettato per ora-di serie su interno:

“Questo significa che tutto ciò che funziona con PostgreSQL lavorerà con TimescaleDB out of the box. Questo include connettori per Apache Kafka, Apache Scintilla, Tableau, e molti altri. Perché l’utilizzo e il funzionamento TimescaleDB è come PostgreSQL, è facile costruire una varietà di applicazioni.”

Corcoran notato kdb+ è open-source interfacce e plugin per i più comunemente usati di soluzioni di messaggistica, tra Kafka e Scintilla, e offre anche il driver per la popolare di statistiche e di prodotti per la modellazione, come R, Matlab, Python:

“Kdb+ è noto per la sua capacità di catturare, analizzare e memorizzare ad alta frequenza di serie temporali di dati, ad esempio da migliaia di IoT sensori, l’esecuzione di algoritmi in tempo reale per confrontare lo streaming di dati storici con le istantanee per il rilevamento di anomalie.”

Sidhu menzionato Telegraf, InfluxDB open-source plugin tecnologia in grado di fonte di metriche e gli eventi da più di 200 tipi di endpoint: “DBs, registri, statistiche di rete, statistiche di sistema, etc. Facilmente si inserisce in Kafka – e Scintilla a base di fonti, così come i flussi di dati in InfluxDB per ingestione e ulteriori analytics e avvisi” Sidhu ha detto.

Il futuro della serie temporale database

Questo è tutto bene e bene, ma se il tempo-serie di archiviazione e di elaborazione è così importante, inoltre, pone la domanda: serie temporale di sistemi di elaborazione ad avere un futuro di loro che alla fine diventano parte dell’offerta di tutti i database e i sistemi di elaborazione dati, come ci si sposta verso le applicazioni in tempo reale?

Inoltre: Cosa fare quando i big data diventa troppo grande TechRepublic

In altre parole, il tempo-serie database di essere assorbiti da altri fornitori, come i nostri ZDNet co-collaboratore Tony Baer ha previsto avverrà con GPU database, per esempio?

“Come ci si sposta di più verso sistemi real-time, time-series elaborazione diventerà più tradizionale, e più centrale per le applicazioni. Avendo la possibilità di combinare i dati di serie temporali con altri tipi di dati, sarà di vitale importanza,” Corcoran ha detto, quando gli viene chiesto.

Sidhu ha sottolineato l’incremento degli interessi su DB-Motori per suggerire che il tempo di serie database sono qui per rimanere e guadagnare popolarità:

“Questo è guidato da spostare la strumentazione nel fisico e mondo virtuale. La storia è ricca di esempi di nuove tecnologie e piattaforme di essere creato a causa di carichi di lavoro variabili.

I database tradizionali devono ancora essere adattato per supportare correttamente i dati di serie temporali al centro. Aggiungendo che riportano i dati di supporto per le piattaforme esistenti non potrà mai fornire la scalabilità e la facilità di utilizzo richiesto per queste nuove applicazioni.”

Kulkarni ritiene che tutti i dati è fondamentalmente di serie temporali di dati, e che il database e l’elaborazione dei dati di mercato alla fine ottenere assorbito da tempo-serie di strumenti di analisi:

“Questo può sembrare folle, ma se ci pensate, ogni datapoint ha un timestamp e analisi di dati attraverso tali timestamp consente di vedere come la modifica di dati. In altre parole, il tempo di serie a è la massima fedeltà dei dati in grado di catturare. Quindi, se non siete archiviare i dati in raw tempo-serie, si sta lanciando di preziose informazioni.

Questa è una dichiarazione coraggiosa, anzi. Da parte nostra, dobbiamo notare che solo poche voci nell’elenco delle serie per i database di fornitori commerciali e di supporto dietro di loro. Molti di loro sono progetti open source.

Anche: Come costruire un business di architettura per il tuo big data TechRepublic

Mentre spesso questi progetti sono il risultato di anni di sviluppo, il fatto che la maggioranza non sembra avere, enti commerciali dietro di loro può essere un indicatore per la margini di questo mercato per la crescita indipendente. In ogni caso, la serie di tempo di elaborazione è qui per rimanere. Esattamente come si svolga? Solo il tempo dirà.

Precedente e relativa copertura:

Non c’è un ruolo per IA o i dati della scienza: questo è un lavoro di squadra

“Come citazione-to-cash funziona in qualsiasi ERP non è qualcosa che si può insegnare a un data scientist in due giorni”.

AI: La vista dal Capo Scienza di Dati Ufficio

E ‘ difficile ottenere dati di scienziati di cui hai bisogno. E se si sta gestendo un progetto AI, meglio essere preparati per la gestione di bersagli in movimento. Questi sono alcuni dei risultati di un’indagine di capo scienziati dati e analytics ufficiali che abbiamo recentemente concluso.

Conoscenza grafici oltre hype: Ottenere la conoscenza dentro e fuori di grafici e database

Che cosa sono esattamente le conoscenze grafici, e che cosa è con tutto l’hype su di loro? Imparare a distinguere hype dalla realtà, la definizione di diversi tipi di grafici, e raccogliere i giusti strumenti e database per il vostro caso d’uso è essenziale se si vuole essere come il Airbnbs, Amazzoni, Google, e LinkedIns del mondo.

Cosa fare con i dati? L’evoluzione delle piattaforme di dati in un post di big data mondo

Leader di pensiero Esteban Kolsky porta sul grande domanda: che Cosa piattaforme di dati di guardare come ora che i big data l’hype è finita e big data “soluzioni” sono a portata di mano?

Storie correlate:

Il passato, il presente e il futuro di streaming: Flink, Scintilla, e il gangHortonworks svela la tabella di marcia per rendere Hadoop cloud-nativeArcadia Dati porta naturale del linguaggio di query per i dati lakeThis avvio pensa che non sa come migliorare la velocità di analisi in tempo reale sul tonnellate di dati

Argomenti Correlati:

Big Data Analytics

L’innovazione

CXO

Intelligenza Artificiale

Enterprise Software

Archiviazione