Zero

Sarebbe puro eufemismo per dire che il mondo è cambiato da quando Hadoop ha debuttato poco più di un decennio fa. Riavvolgere il nastro fino a 5 – 10 anni fa, e se si voleva lavorare con i big data, Hadoop è stata praticamente l’unica piattaforma di gioco in città. Il software Open source è stata la ciliegina sulla torta di un mercato di calcolo e archiviazione delle infrastrutture che ha fatto il trattamento e la conservazione petabyte di dati pensabile.
Da allora, di storage e di calcolo hanno continuato a fare a meno. Ma così è la larghezza di banda, come le connessioni 10 GbE hanno soppiantato il 1 GbE connessioni che erano la norma di un decennio fa. Il cloud edge computing, dispositivi intelligenti, e l’Internet delle Cose hanno cambiato il big data paesaggio, mentre le alternative quali dedicato Scintilla e AI servizi di offrire alternative alla cottura completa del cluster Hadoop. E come abbiamo notato in precedenza, tappatura fuori, il cloud storage è diventato de facto dati lago.
Oggi è possibile eseguire Hadoop nel cloud, ma Hadoop non è attualmente una piattaforma che sfrutta appieno le capacità del cloud. A parte che scanala in S3 o altri cloud storage in luogo di HDFS, Hadoop non sfruttare appieno l’architettura cloud. Fare Hadoop cloud-nativo non è una questione di buzzword di conformità, ma rendendolo più di fleet footed.
La necessità di Hadoop per arrivarci non è semplicemente riconducibile alla concorrenza da parte di altri su misura big data, cloud, servizi, ma dall’inevitabilità di distribuzione cloud. In aggiunta a basata su cloud Hadoop servizi di i soliti sospetti, si stima che circa il 25% dei carichi di lavoro da Hadoop incumbent — Cloudera, Hortonworks, e MapR — sono attualmente in esecuzione nel cloud. Ma, cosa più importante, dal prossimo anno, si può prevedere che la metà di tutti i nuovi dati di grandi carichi di lavoro sarà distribuito nel cloud.
Così come è stato lavorare con Hadoop nel cloud di oggi? Spesso può richiedere fino a 20 minuti o più per eseguire il provisioning di un cluster con tutti i componenti. Che vola contro l’aspettativa di essere in grado di accendere una Scintilla o una macchina di apprendimento di servizio in pochi minuti — o meno. Che è dove containerizzazione e microservices venire in — possono isolare i carichi di lavoro o dell’intero grappolo, multi-tenancy reale. E si può rendere molto più efficiente il lancio di Hadoop carichi di lavoro.
Un altro concetto chiave per il cloud operazione di separazione di calcolo da memoria. Questo vola in realtà il volto di Hadoop originale modello di progettazione, dove l’idea era di far calcolare i dati per ridurre al minimo lo spostamento di dati. Oggi, i tubi sono cresciuti grasso sufficiente a fare che quasi un non-problema. Come notato sopra, separato, di calcolo e di storage è già una pratica standard con la maggior parte dei managed cloud-based Hadoop servizi, anche se in EMR, Amazon fornisce la possibilità di eseguire HDFS.
Siamo ancora nei primi giorni di Hadoop contenitore-friendly. MapR sparato il primo colpo con il suo supporto di persistente di contenitori per la sua piattaforma, che consente di isolare i carichi di lavoro al fine di ridurre i conflitti per le risorse. Hadoop 3.1 a sua volta permette di lancio Mobile contenitori da FILATI. Ma mentre Kubernetes, sarà inevitabilmente su Hadoop tabella di marcia, non c’è la timeline di sicurezza per quando si farà nel tronco. Oggi, è in gran parte un inventare la propria esperienza.
Hortonworks sta per svelare l’Aprire un’Architettura Ibrida iniziativa per trasformare Hadoop in una nuvola-piattaforma nativa, e come parte di esso, ha annunciato la partnership con IBM e Red Hat per farlo accadere.
Passo 1 dell’iniziativa l’indirizzo di containerizzazione. Arrivarci non è banale. Una cosa è accettare containerizzato carichi di lavoro, ma è un altro per rearchitect tutti i componenti di Hadoop come contenitori, sia a cluster e al bordo. E una volta che la comunità Apache ottiene la massa critica di refactoring i componenti Hadoop in contenitori, c’è la necessità di fornire percorsi di migrazione della base installata.
Al di là di contenitori, Hortonworks prevede la tabella di marcia per comprendere la separazione calcolare dai dati. Che il passaggio 2. In una certa misura, che è già realtà di fatto, come ciascuno dei principali provider di servizi cloud gestiti Hadoop servizi già che: per loro la loro cloud oggetto di negozi di in-tipo di parti di ricambio per HDFS, e mantenere calcolare separati (anche se Amazon non offrono l’opzione di esecuzione EMR con locale di stoccaggio HDFS). Ma le connessioni, come S3A per il collegamento di S3, non sono ottimali, e non si può semplicemente scambiare HDFS per l’archiviazione di oggetti se si sta eseguendo il vostro cloud privato.
Questo passaggio consente di sfruttare il lavoro sul Ozono progetto, che mira a rendere HDFS l’aspetto di un cloud object store. Mentre siamo tentati di dire che l’Ozono è un’idea che è stata lanciata nell’ozono per un po’, Hortonworks piani per accelerare la fatica in una delle prossime tappe del progetto. L’altro elemento è cambiando le Api per disaccoppiare HDFS da calcolare attraverso nuove Api, in modo che i clienti locali possono fisicamente lay out i loro grappoli di cloud privati. Questi pezzi non cadono in luogo fino al prossimo anno, al più presto.
Fase 3 prevede il supporto di Kubernetes. Nel breve termine, Hortonworks è sempre HDP, HDF, e DataPlane Servizi (DPS) certificato su Red Hat OpenShift Kubernetes applicazione contenitore piattaforma. IBM, che gli Oem HDP, che segue a ruota con Cloud Privato per i Dati (ICP). Mentre OpenShift indirizzi di cloud privato, la questione aperta è il sostegno da ogni fornitore di servizi cloud Kubernetes piattaforme.
Al di là di queste tre fasi, Hortonworks vista cloud-nativo di Hadoop che necessitano di governance che si estende su cloud(s) e on-premise centri dati. Che è una casella di controllo che si sta cominciando a compilare con il DPS quadro. Un work in progress, DPS è una sorta di uber catalogo di servizi che si sta gradualmente popolato con i plugin, come amministratore dei Dati di Studio, i Dati di Gestione del Ciclo di vita, e, più recentemente, i Flussi di Messaging Manager, per il governo di replica, il controllo degli accessi e dei flussi di dati attraverso il cloud e ibridi obiettivi. Ci sono anche pezzi in Atlas, il Ranger, e Knox che dovranno essere adattati per l’ibrido e multi-cloud governo.
Ci saranno molte parti in movimento per rendere Hadoop cloud-native. Oggi, Hortonworks ha presentato il progetto, ma ci sono ancora spazi vuoti da riempire, come il lievito Kubernetes supporto in Hadoop tronco. La comunità Apache non ha ancora commesso quando sarà cotta nel tronco. Fare Hadoop cloud nativo sarà un viaggio.
Argomenti Correlati:
Cloud
La Trasformazione Digitale
Robotica
Internet delle Cose
L’innovazione
Enterprise Software
0