Databricks presenta il nuovo progetto open source per ripulire i dati laghi

0
145
delta-lake-logo.png

×

delta-lago-logo.png

Durante il nostro 2018 anno di anticipo rispetto le previsioni, la previsione è che il cloud storage sarebbe diventato de facto dati lago. Il dilemma è che il cloud storage è stato progettato per il solo stoccaggio. Ma, sempre più spesso, gli analisti e i dati di scienziati vogliono per ottenere l’accesso a tali dati. Con Athena, AWS dati in S3 queryable. ChaosSearch acceso il tuo Amazon S3 archiviazione all’interno di un de facto Elasticsearch cluster. Dati della nuvola di magazzini a estendere la loro portata per la query di cloud storage, mentre la maggior parte dei cloud gestito Hadoop utilizzo dei servizi di che livello di archiviazione come opzione predefinita.

La sfida, naturalmente, è che i dati di versare in di storage cloud tende ad atterrare lì per impostazione predefinita. Indovinate un po’? In tali scenari, le cose buone come sistema di governo e di monitoraggio di derivazione dei dati finiscono incoerente da applicare, se non del tutto. Certo, le perdite potrebbero sembrare banale se lo scopo è semplicemente quello di esplorare i dati, prima di condurre l’analitica sedute nelle quali vengono prese le decisioni. L’inconveniente con che logica è che, in un’epoca di GDPR, le imprese possono ottenere nei guai la memorizzazione dei dati a cui hanno diritto. Poi ci sono i perenni convalida dei dati i problemi che si verificano quando si dispone di più, versioni contrastanti della verità. Può gettare la scienza di dati o di machine learning progetti off kilter. Nei dati lago era “garbage in, garbage out” è quasi obsoleti.

In fase di Spark + AI Summit, Databricks sta per svelare un nuovo progetto open source, Delta Lago, che non ha nulla a che fare con il bayou o la raccolta di gambero. Gestisce i dati elaborati mediante una Scintilla per farlo transazionale, e terre in comune, Parquet formato. Delta Lago, che è disponibile in un Apache 2.0 licenza open source, si applica un ACIDO strato di transazione che si monta sul Scintilla dati di tubazioni per garantire che i dati gli aggiornamenti in arrivo da stream e/o batch non inciampare uno sopra l’altro, con conseguente parziale o duplicati danneggiato si impegna. Se indifferenziato cloud storage è de facto dati lago, questa mira a sviluppare una pulita la zona di atterraggio.

Avere il supporto transazionale significa che i dati di ingegneri e gli sviluppatori non hanno per costruire un livello separato per garantire la coerenza di aggiornamenti. Che ha maggiore impatto dato dal fatto che i dati laghi di solito hanno più dati di condotte che sono la lettura e la scrittura dei dati contemporaneamente. Database sviluppato il supporto delle transazioni per rendere i dati si impegna pulito; fino ad ora, i dati laghi mancavano tali meccanismi, costringendo i dati di ingegneri e sviluppatori di scrivere i loro logica di transazione. Nella maggior parte dei casi, non fare nulla è l’opzione di default dato che l’alternativa di laborioso e difficile da mantenere uno sviluppo personalizzato.

Delta Lago consente di applicare lo schema se si sceglie, un concetto più associato con i database relazionali, piuttosto che dati laghi (schema di applicazione è facoltativa). Inoltre, fornisce istantanee in modo che gli sviluppatori possono accedere o di ripristinare le versioni precedenti. Che è utile, non solo per i controlli, ma per testare la validità di qualsiasi modello. Si è pienamente Scintilla-compatibile, è possibile collegarlo a esistente Scintilla dati di tubazioni.

Con Delta Lago, Databricks è il sistema bancario e il fatto che l’ACIDO non inquinare laghi, ma pulirli.

Argomenti Correlati:

Intelligenza Artificiale

La Trasformazione Digitale

Robotica

Internet delle Cose

L’innovazione

Enterprise Software