Standard per la memorizzazione dei big data? Apache Scintilla creatori versione open-source di Delta Lake

0
137

Utilizzare i big data per creare valore per i clienti esterni e interni squadre
Zhe Zhang, responsabile del Nucleo di Big Data, LinkedIn, discute aprire profonda fonte di apprendimento e di intelligenza artificiale strumenti utilizzati su LinkedIn.

In teoria, i dati laghi sembrare una buona idea: Un grande repository per l’archiviazione dei dati, la vostra azienda deve processo unificante miriadi di fonti di dati. In pratica, la maggior parte dei dati laghi sono un disastro in un modo o nell’altro, a guadagnare la “data di palude” moniker. Databricks dice che la parte del motivo è la mancanza di supporto transazionale, e che hanno appena aperto di provenienza Delta Lago, una soluzione per affrontare questo.

Storicamente, i dati laghi era un eufemismo per Hadoop. Storico Hadoop, che è: locale, utilizzando HDFS come il livello di archiviazione. Il motivo è semplice. HDFS offre un efficiente e affidabile per l’archiviazione per i dati di tutte le forme e dimensioni, e Hadoop ecosistema offre una vasta gamma di opzioni di elaborazione per i dati.

Dati i tempi sono un changin’, però, e i dati laghi seguire. L’idea di avere un grande archivio dati per tutto rimane, ma che non è necessariamente in premessa più, e non necessariamente Hadoop.
Il Cloud storage è diventare de facto dati lago
e Hadoop stessa è in continua evoluzione per utilizzare il cloud storage e di lavoro nel cloud.

Un livello superiore del sistema di archiviazione, ovunque esso sia

Databricks è l’azienda fondata dai creatori di Apache Scintilla. Scintilla è completata o sostituita, tradizionale Hadoop, in larga misura. Questo è dovuto al livello di astrazione più elevato di Spark Api e il suo più veloce, in memoria di elaborazione. Databricks offre un ambiente gestito versione di open source Spark in the cloud, con un numero di estensioni proprietarie, chiamato Delta. Delta è il cloud, ed è utilizzato da un certo numero di grandi clienti in tutto il mondo.

In una conversazione con Matei Zaharia, Apache Scintilla co-creatore e Databricks CTO. Zaharia notato che a volte la Scintilla utenti di migrare verso il Databricks piattaforma, mentre altre volte è la linea di business requisiti che determinano un cloud-primo approccio. Sembra che avere a che fare con dati laghi che abbracciano on-premise e cloud storage richiesto Databricks di fare qualcosa per affrontare uno dei temi principali: l’Affidabilità.

apache-spark.jpg

I creatori di Apache Scintilla di lavoro con i dati laghi un sacco, che ha ispirato a prendere su alcuni dei loro problemi

×

apache-spark.jpg

“Oggi, quasi ogni azienda ha una data lago stanno cercando di acquisire conoscenze, ma dati i laghi hanno dimostrato che la mancanza di affidabilità dei dati. Delta Lago ha eliminato queste sfide per centinaia di imprese. Facendo Delta Lago di open source, gli sviluppatori saranno in grado di creare facilmente dati affidabili laghi e li trasformano in ‘Delta Laghi’,”, ha detto Ali Ghodsi, co-fondatore e CEO di Databricks.

Sapere dove questo proviene, abbiamo avuto a chiedersi che cosa significa esattamente, e che tipo di archiviazione dei dati, Delta Lago di supporto?

“Delta Lago si trova sulla parte superiore del sistema di archiviazione[s], non le sostituisce. Delta Lago è una transazionale livello di archiviazione che funziona sia per la parte superiore di HDFS e cloud storage come S3, archiviazione blob di Azure. Gli utenti possono scaricare open-source Delta Lago e usarlo su-prem con HDFS. Gli utenti possono leggere da qualsiasi sistema di archiviazione che supporta Apache Spark fonti di dati e scrivere Delta Lago, che memorizza i dati in Parquet formato,” Ghodsi detto a ZDNet.

Apache Parquet è il formato di scelta per Databricks. Il Parquet è un open-source colonnare formato di archiviazione disponibile per qualsiasi progetto di ecosistema Hadoop, indipendentemente dalla scelta del trattamento dei dati quadro. Così sembra Delta Lago agisce come un livello superiore di dati supportati formati di archiviazione.

Argomenti Correlati:

La Gestione Dei Dati

La Trasformazione Digitale

Robotica

Internet delle Cose

L’innovazione

Enterprise Software