Zero
È un po ‘ un adagio nel mondo del software che quando un prodotto arriva alla sua terza versione, colpisce davvero il suo passo. Le prime versioni sono di solito quello che noi oggi chiamiamo minimamente valida del prodotto (MVP) comunicati; 2.0 rilascia in genere basta aggiungere funzionalità per affrontare alcuni dei più eclatanti v1 punti di dolore. Ma il 3.0 articoli che spesso tendono ad adattarsi e di finitura, e spesso portare uno o due importanti nuovi set di funzionalità.
Tale è il caso con la versione 3.0 di Hortonworks Data Platform (HDP), ha annunciato questa mattina a Hortonwork del DataWorks Vertice in San Jose, CA. HDP 3.0 è basato sulla versione 3.1 di Apache Hadoop, che davvero sono importanti nuove aree di funzionalità.
Leggi anche: Dati Funziona, Hadoop 3.0 è dietro l’angolo, e ‘Horton Portelli l’Uovo’
Leggi anche: Hadoop 3 si confronta con la realtà della crescita di archiviazione
L’elefante nel contenitore
Il bit che può afferrare la maggior parte dei titoli è che i lavori inviati per Hadoop di FILATI di resource manager può consistere in tutta la finestra Mobile contenitore di immagini. Mentre FILATO ha avuto il suo proprio formato contenitore per qualche tempo, che è stato di più su un codice e dipendenze formato di imballaggio di un completo ambiente di macchina formato come scaricatore di porto.
Tra le altre cose, la spedizione di finestra Mobile immagini significa che il codice che si basa su una particolare versione di software (ad esempio, una specifica versione di Python) può essere certi di esecuzione, anche se lo sviluppatore non ha alcun controllo, o intuizione, ciò che è installato sul cluster Hadoop operaio nodi.
Tenete a mente, Hadoop (e HDP) il supporto per il Mobile non è progettato per girare Hadoop in un generico ambiente ad alte prestazioni per l’esecuzione di codice arbitrario. Né la finestra Mobile di supporto implica Kubernetes contenitore orchestrazione di supporto, almeno non ancora. Invece, la finestra Mobile di supporto assicura il controllo dinamico ambienti di runtime per il tipo di posti di lavoro Hadoop ha sempre eseguito.
HDP 3.0 include anche il supporto per le Gpu (unità di elaborazione grafica) in esecuzione di Hadoop i lavori che coinvolgono il Deep Learning e AI carichi di lavoro, oltre a migliorare la sicurezza e la capacità di governance, basato su Apache Ranger e Atlante di progetti.
Hive 3.0: L’ape va a colonne
Come fresco come contenitore di tecnologia è oggi, Hadoop è sempre stato quello di ottenere il lavoro fatto, e molto di questo lavoro è stato intorno aggregazione/riepilogo di enormi insiemi di dati. Un sacco di che il lavoro è stato delegato ad Apache Hive, la versione originale di SQL-sul-Hadoop componente incluso nella maggior parte delle distribuzioni Hadoop, tra cui HDP.
Ma Alveare iniziale affidamento su MapReduce e anche la sua più recente integrazione con Apache Tez, tra cui il LLAP (“Vivere a Lungo e di Processo” o, a volte, “a Bassa Latenza di Elaborazione Analitica”) di attuazione, è stato, in una parola, lento. Rispetto alla maggior parte di data warehouse e OLAP (OnLine Analytical Processing), tecnologie, Hive solo non ha sentito abbastanza veloce per supportare realmente interattiva di esplorazione dei dati. E che ha generato concorrenti, come Scintilla di SQL e Apache Impala. È spesso sentita come per magia l’obbligo di effettuare Hive abbastanza veloce per la Business Intelligence (BI) carichi di lavoro.
Ma HDP 3.0 include Hive 3.0 e l’ultima funzionalità di integrazione con Apache Druido, una colonna di memorizzare i dati di accesso e sistema di archiviazione orientata verso BI/OLAP interrogazione di dati di serie temporali. Ora Hive gli utenti possono credere nella magia, come questa integrazione sembra essere un vero e proprio win-win: Hive guadagni interattiva colonna store BI motore e Druido guadagna una query SQL astrazione sul suo finora esclusivamente JSON + REST API di interfaccia. Druido acquisisce anche la capacità di utilizzare Alveare di generare gli indici, invece di dover utilizzare lavori di MapReduce per quel compito.
Druido tabelle dell’Alveare 3.0 sono tabelle esterne, in modo che l’integrazione evita di un’architettura che si basano sulle inefficienze dei dati di movimento. Hive spingere giù tanto di query come si può Druido stesso. E mentre noi non abbiamo necessariamente bisogno di una maggiore complessità in SQL-sul-Hadoop mondo, tutto ciò che fa Hive vivere fino alla sua auto-proclamata di ruolo come Hadoop basato su piattaforma di data warehouse potrebbe in ultima analisi portare un po semplicità di Hadoop mondo.
Do-si-do il vostro partner
Oltre ad un nuovo HDP rilascio, Hortonworks ha un altro 3.0 sotto il suo cappello, in forma di tre partenariati annunci — con Microsoft, Google e IBM-tutti incentrato sul cloud.
Cominciamo con Microsoft, l’azienda più spesso citato, in riferimento alla versione 3 effetto. Le due aziende stanno promuovendo la disponibilità di Hortonworks’ tre distribuzioni: HDP, HDF (Hortonwork DataFlow) e DPS (Hortonworks DataPlane Servizio) su Microsoft Azure IaaS (Infrastructure as a Service) che offre.
Leggi anche: Hortonworks introduce il flusso di dati, acquisisce Apache NiFi-sostenitore Onyara
Leggi anche: Hortonworks aggiunge GUI per lo streaming di dati, “Flex Supporto” per il cloud ibrido
Questo è un po ‘ contro-intuitivo, dato HDInsight, Microsoft PaaS (Platform as a Service) Hadoop offerta è in realtà un HDP derivati. In definitiva, significa che Hortonworks’ cloud go-to-market iniziative sarà basato intorno al suo first-party di distribuzioni e Microsoft arriva a tout a scelta del cliente.
Parlando di scelta, mentre il precedente annuncio significa che HDP, HPF e DPS sono ora disponibili su Azure, come Amazon Web Services (AWS), l’integrazione di Google Cloud Platform (GCP) è in Hortonworks interesse, soprattutto in considerazione della “tre” a tema. E che molto onboarding è stato annunciato da Hortonworks oggi, con la disponibilità di HDP e HDF su GCP. L’integrazione comprenderà di più che solo la disponibilità di Hortonwork della tecnologia anche se: comprende anche l’accesso nativo di Google Cloud Storage da Hadoop lavori su HDP, che unisce simili supporto per Amazon Simple Storage Service (S3) e di Archiviazione Blob di Azure.
Il terzo e ultimo bando comporta una più di tre lettere dell’acronimo: IBM. Big Blue annuncia, in un suo post sul blog, un nuovo servizio, chiamato IBM ha Ospitato Analytics con Hortonworks (IHAH). Un servizio opportunamente quattro-lettera acronimo, per un servizio offerto sul Hortonworks’ quarto di cloud pubblico, si combinano HDP, IBM Db2 Grande SQL e i Dati IBM Scienza Esperienza, un AI-oriented che offre.
Leggi anche: IBM Watson Dati Piattaforma mira a diventare scienza di dati del sistema operativo
Hadoop è in casa
Hadoop è una parola sporca, specie nell’ultimo anno, ma non dovrebbe essere così. Mentre l’industria si concentra la sua macchina dell’hype su AI, core analytics compiti sono ancora il pane e il burro di Impresa. Portando Alveare fino al tabacco da fiuto e interattivo del motore sul quale gli strumenti di BI possono svolgere i carichi di lavoro è un importante piano di sviluppo, che dovrebbe essere ignorato all’osservatore pericolo. E l’ammodernamento della piattaforma di base per ospitare containerizzazione e GPU esecuzione mostra Hadoop tenere il passo con i Big Data (e AI) Vicini.
Un sacco di aziende hanno fatto grandi investimenti in Hadoop. Ora Hortonworks — la società nata dallo spin-off dell’originale Hadoop team di sviluppo di Finanza-è l’ottimizzazione di Hadoop per aiutare i clienti a sfruttare meglio i ritorni sugli investimenti. Questo è significativamente positivi di sviluppo, per l’ecosistema Hadoop, e per il mondo dei dati in generale.
Argomenti Correlati:
Cloud
La Trasformazione Digitale
Robotica
Internet delle Cose
L’innovazione
Enterprise Software
0