Cloudera Machine Learning rilascio prende cloud-percorso nativo

0
158

Zero

cloudera.png

Sulla scia del suo ultimo rapporto trimestrale prima del previsto la chiusura della sua fusione con Hortonworks, Cloudera ha annunciato la possibilità di accedere ad un’anteprima di un nuovo cloud-nativo contropartita per l’Cloudera Scienza di Dati area di lavoro (DSW) che va al di full tilt sulla Kubernetes. Significativamente, si porta un diverso branding — Cloudera di Machine Learning (Cloudera ML).

L’architettura e il branding riflettere su due turni nel mercato. Il primo è il passaggio al cloud. Mentre si stima che solo circa il 25 – 30% di Cloudera la base installata è l’esecuzione di carichi di lavoro nel cloud, la velocità verso l’adozione del cloud è inconfondibile. Ovum ha previsto che il prossimo anno, la metà dei nuovi dati di grandi carichi di lavoro saranno in esecuzione sul cloud. E che detta sostenere il tipo di autoscaling che è possibile nel cloud.

La seconda tendenza è AI, o, più specificamente, il machine learning. Quando Cloudera inizialmente rilasciato DSW, l’impatto delle attività è stato la costruzione di più sulla costruzione convenzionale scienza di dati modelli che sono statiche, e sono distribuiti, e quindi le modifiche apportate ai modelli sono fatte da persone.

Oggi, per dire che c’è interesse AI (per lo più la macchina di apprendimento del modulo) sarebbe un eufemismo. La mossa di adozione AI riflette il fatto che i modelli, i quadri di riferimento e di calcolo sono più accessibili che mai, grazie ad appositi servizi cloud e per la disponibilità di GPU risorse che, attraverso il cloud non obbliga le imprese a saltare le prossime tre anni di bilanci di capitale per AI calcolare.

E, data la disponibilità di servizi dedicati come Databricks (a Scintilla (carichi di lavoro), e Amazon SageMaker, Azure Machine Learning, e Google Cloud AutoML, ci sono alternative per Hadoop per l’esecuzione di apprendimento automatico dei carichi di lavoro.

Si può certamente utilizzare DSW per AI problemi, ma il problema è dal punto di vista economico la gestione di calcolare. Così, Cloudera adattato il DSW offerta con un aggiuntivo: Cloudera ML. Risponde a queste tendenze, con un nuovo Kubernetes basato su architettura che bypassa FILATO pianificazione delle risorse on-premise cluster Hadoop. Per essere chiari, questo non sostituisce l’esistente DSW che gira su Hadoop e di FILATI, ma fornisce un’altra edizione che funziona in Kubernetes ambienti.

Questa non è la prima volta che Cloudera ha sostenuto contenitori per i dati che la scienza o ML carichi di lavoro; con l’utilizzo di contenitori, Cloudera poteva pacchetto interdipendenze necessari per la distribuzione fisica. Ma dato che l’originale DSW è stata mirata a Cloudera Enterprise i clienti che utilizzano cluster Hadoop, corse Scintilla carichi di lavoro in FILATO di inserirsi nella stessa distribuzione.

Il cloud è una storia diversa. Prima di tutto, i dati lago è in genere in cloud archivi di oggetto, non HDFS. In secondo luogo, Cloudera CDH (utilizzando FILATI) non supporta out-of-the-box autoscaling — la capacità di rampa di salita e di discesa della capacità di calcolo — perché è stato progettato per funzionare su cluster di dati e di calcolo erano sullo stesso nodi. Con Kubernetes diventando lo standard de facto per il cloud nativo di calcolo (anche AWS, che aveva il suo proprietario contenitore di servizi di gestione, ha morso la pallottola e ha iniziato ad offrire un gestiti Kubernetes servizio), il dado era tratto per Cloudera. Se si desidera supportare i clienti nel cloud, DSW o il suo successore avrebbe dovuto abbracciare Kubernetes, non di FILATI.

Cloudera ML è ora limitata anteprima privata, sostenendo l’accesso ai dati nel cloud archivi di oggetto, HDFS e banche dati esterne, con distribuzione in un cloud pubblico, o, infine, nei locali (in privato nuvole) via OpenShift.

Questioni più generali, che

Mentre Cloudera ML è il primo rilascio di un 100% Kubernetes di prodotti a base di, non vedere questo come un isolato incursione o outlier. Sullo sfondo, l’Apache Hadoop comunità ha intrapreso il disaccoppiamento Hadoop da HDFS, in modo che il cloud object storage sarà anche una prima classe di cittadini. Con Hadoop non è più l’unico luogo per l’esecuzione di big data, o in particolare, ML carichi di lavoro, non saremmo sorpresi se a un certo punto, Cloudera scatena Cloudera ML per l’esecuzione di qualsiasi Kubernetes cluster, on-premise o nel cloud pubblico.

E questo è dove alcune questioni più generali, che vengono in.

Chiaramente, Cloudera sta andando a continuare a sostenere in premessa, che è il nucleo della sua attuale base installata. Come un on-premise fornitore che si estende verso il cloud, sarà sempre più differenziarsi attraverso il suo sostegno ibrido. Ma sostenere ibrido indica l’aggiunta di cloud-opzioni native, proprio come sta facendo adesso, aumentando la sua DSW linea di prodotti con Cloudera ML. Che dire, allora, altri carichi di lavoro come data di ingegneria o di data warehousing? Nel cloud possono anche beneficiare di in esecuzione sul Kubernetes cluster.

E che ancora una volta porta alla perenne domanda di ciò che rende Hadoop, Hadoop. Ricordiamo che ci sono gli sforzi in atto per rendere la piattaforma Hadoop più cloud-friendly, dal disaccoppiamento di archiviazione per ospitare abitazioni container carichi di lavoro. Queste sono le iniziative a lungo termine in corso nella comunità Apache. Così, una volta soppiantare HDFS con cloud object storage, e MapReduce con la Scintilla, cosa rimane? Che è dove la governance, la gestione e il supporto di diversi tipi di carichi di lavoro per distinguere Hadoop dalla grande punto dati servizi. Se le risorse sono dettate da FILATI o Kubernetes diventerà una questione accademica. Non è neanche il 2019, ma siamo ancora fare questa previsione: In futuro, il tipo di Hadoop si svolgeranno in base a come si distribuisce.

Argomenti Correlati:

Cloud

La Trasformazione Digitale

Robotica

Internet delle Cose

L’innovazione

Enterprise Software

0