Cloudera un data warehouse giocatore ora

0
105

Zero

Quasi sette anni fa, in una sala riunioni dell’hotel è a Manhattan, Mike Olson, quindi Cloudera CEO, ha informato di me su ancora riservate Cloudera progetto chiamato Impala. Penso Olson sapeva che stava predicando ai convertiti come mi ha detto come inefficiente e insufficiente MapReduce-based computing per le aziende. La risposta, ha detto, era Impala, un Alveare-compatibile database che sarà utilizzato Hadoop per l’archiviazione, ma completamente ignorata MapReduce per il calcolo e l’elaborazione.

Un data warehouse in impala abbigliamento.
Come ho scavato più in profondità, ho scoperto che c’era di più per la storia. Impala non è solo una MapReduce-meno Alveare. Infatti, Cloudera, ha detto, era in realtà un MPP (massively parallel processing) basato su un data warehouse è capitato di utilizzare HiveQL come la sua lingua e HDFS (Hadoop Distributed File System) per l’archiviazione.

Leggi anche: Cloudera dell’Impala porta Hadoop per SQL e BI
Leggi anche: SQL e Hadoop: È complicato

Alla fine, Impala è andato open source, il primo sotto la Cloudera propri auspici e poi sotto la Apache Software Foundation. Così come Impala è diventato il generico, Cloudera ha cercato un nome di marca per la realizzazione di Impala in CDH, proprio Hadoop/Scintilla di distribuzione. Che nome è diventato Cloudera Analitica Database.

Il reveal
Ma, ricordate, Impala è un vero MPP data warehouse. Quindi, perché battere intorno al cespuglio? Con questo in mente, suppongo, Cloudera annuncia oggi l’uscita di Cloudera Data Warehouse (DW), l’Impala è un prodotto a base precedentemente noto come Cloudera Analitica Database.

In una chiamata in conferenza briefing, Cloudera del Joydeep Das, Direttore Senior, Data Warehousing Prodotti e Susan Spazio, Direttore Senior del Marketing Aziendale, mi ha spiegato che Cloudera DW è più di un esercizio di branding, e per un paio di motivi.

Prima di tutto, Impala non è più legato esclusivamente a HDFS, in realtà, il prodotto può utilizzare Amazon S3 o Microsoft Azure Dati Lago Store (ADL) per l’archiviazione. È inoltre possibile utilizzare Kudu, Cloudera proprio colonnare livello di archiviazione (la nomenclatura c’è intenzionale — impala e kudu sono entrambe le specie di antilope).

Leggi anche: Impala, Kudu, e Apache Incubator di quattro mesi di Dati di Grandi abbuffate

E quando si aggiunge in altri Cloudera e componenti di ecosistema Hadoop, come Sqoop, Flume, la Tonalità e l’Alveare in sé, si capisce il perché Cloudera, sente di avere un end-to-end soluzione moderna per il data warehousing.

Testa (nodo) tra le nuvole
L’S3 e di RIPOSO compatibilità significa anche che Cloudera DW può essere eseguito nel cloud, e, in realtà, è stato in grado di farlo per qualche tempo, finchè non hai in mente di farlo su un’Infrastruttura come Servizio (IaaS), in base cloud macchine virtuali. Ma Cloudera ha avuto una Piattaforma come Servizio (PaaS) offerta cloud per Alveare e Scintilla, chiamato Altus. Quindi perché non aggiungere il DW?

Infatti, Cloudera sta facendo proprio questo, l’introduzione di un PaaS versione di Cloudera DW, chiamato…un momento…Altus Data Warehouse. Come Cloudera DW su IaaS, Altus DW utilizzerà il cloud storage di livello, per consentire il calcolo e storage per essere separatamente in scala…ma il nuovo PaaS offrendo anche alleviare il cliente di avere a disposizione e gestire l’infrastruttura.

Ancora un po ‘ di trepidazione?
Nel mio briefing con Cloudera, ho imparato che la società non è il targeting per il Cloudera/Altus DW prodotti Enterprise data warehouse (EDW) scenari. Invece, Das mi ha detto, i prodotti sono mirati alla data mart stile implementazioni che sono di dipartimento o scenario di natura.

In particolare, Cloudera di mira i tre core caso d’uso categorie:

Ottimizzazione dei Dati esistenti MartsWorking con dati non transazionali, come i file di log e IoT sensore dataAnalyzing dati testuali in tandem con i dati relazionali, per esempio, del medico note e cartelle cliniche elettroniche

Cloudera si sente che le implementazioni in tre categorie sopra elencate sono dove la crescita nel mercato. Mi potrebbe essere d’accordo, e penso che li non è saggio. Ma io sono sempre colpito da come, anche con il prodotto ri-bollato come un data warehouse, Cloudera è ancora de-enfatizzare l’utilizzo del prodotto come un EDW.

Indipendentemente dalla retorica, però, gli scenari di cui sopra sono sul radar di cloud data warehouse di aziende come Fiocco di neve, Amazon (con il suo Redshift prodotto), Microsoft (con SQL Azure Data Warehouse) e Google (con BigQuery). Quindi, se stiamo parlando di mart o magazzini, Cloudera, seminale Hadoop venditore di distribuzione, è ora un data warehouse relazionale concorrente.

Argomenti Correlati:

Cloud

La Trasformazione Digitale

Robotica

Internet delle Cose

L’innovazione

Enterprise Software

0