Il futuro per il futuro: la Scintilla, dati di grandi intuizioni, streaming e deep learning in the cloud

0
130

Zero

Spark: La grande strumento di dati du jour è sempre automazione

Probabilmente non ha sentito prima qui. Scintilla ha fatto le onde nel big data per un po ‘ ora, e il 2017 non ha deluso chi ha puntato la sua ascesa. Che è stata una scommessa abbastanza sicuro in realtà, come interpretare i segnali del mercato, parlare con gli esperti e i dati di monitoraggio hanno indicato la stessa direzione.

Scintilla adozione è in piena espansione. La sua comunità è in crescita, e tutti i principali dati di grandi piattaforme di interazione con la Scintilla. Se si guardano i suoi collaboratori di core e di gestione di un progetto europeo (PMC) vedrete Hadoop pesi massimi Cloudera e Hortonworks, e a tutto tondo potenze come IBM, Facebook e Microsoft.

sparkecosystem.png

La scintilla è il punto focale per una ricca quantità di dati e AI ecosistema .Immagine: Apache Scintilla

Si vedrà anche un nome che si può non riconoscere, ma domina Spark lo sviluppo attuale e futuro: Databricks. Databricks è una startup fondata da Spark inventori, Ali Ghodsi e Matei Zaharia. Ghodsi e Zaharia, che cominciò come i colleghi ricercatori e amici nelle loro Berkeley giorni, sono il CEO e CTO di Databricks.

La scorsa settimana la Scintilla Summit Europe evento ha attirato più di 1.000 partecipanti a Dublino. Ghodsi e Zaharia erano entrambi lì per condividere notizie, entrare in contatto con la comunità e discutere. ZDNet è stato anche lì, e gli argomenti che abbiamo discusso coperto un ampio spettro che va dalla strategico per hard-core tecnici.

Soddisfare Delta, il tuo smart cache di livello nel cloud

Dublino in un palcoscenico per l’ultima aggiunta alla Databricks arsenal: Delta. In un certo senso, Delta rappresenta la direzione e la filosofia di Databricks e i suoi fondatori perfettamente. Esso può essere riassunto come una smart cache di livello superiore a S3 AWS di archiviazione che permette di fare tutto per l’elaborazione dati a scala e la velocità di trasmissione in cloud, con Azure e Google cloud presto seguiranno.

Sembra evolutivo, piuttosto che rivoluzionario, nel senso che questo è qualcosa che è andata avanti per un po’. Databricks è stato a muoversi in quella direzione, e iniziare la conversazione con la Delta era una domanda ovvia per Ghodsi: bello, ma cosa c’è di nuovo lì, esattamente?

Databricks piazzole Delta come una piattaforma che combina lo streaming e l’elaborazione in batch, data warehouse, di collaborazione e di machine learning (ML), mentre in esecuzione nel cloud per offrire scala e l’elasticità. Ghodsi spiega che di sviluppo del prodotto è stato orientato al cliente, non solo nel senso di rispondere ai bisogni, ma anche i clienti facendo parte del ciclo di sviluppo.

Ma perché cercare di forma Scintilla di un data warehouse, e come dovrebbe funzionare?

art-hybrid-cloud-intro-2017.jpg

È tutto cloud per Databricks

ktsimage, Getty Images/iStockphoto

La ragione è data warehouse hanno vantaggi in termini di prestazioni e di governance, e udito da clienti come hanno mantenuto lo spostamento di dati tra loro i dati di laghi e i dati di magazzini ispirato Databricks a prendere azione. Dati laghi di integrare i dati di magazzini in termini di archiviazione a buon mercato e di separazione di calcolo e storage, quindi l’idea era di ottenere il meglio di entrambi i mondi.