Cloudera maskininlärning övergång tar cloud-native väg

0
113

Noll

cloudera.png

I hälarna på sin senaste kvartalsrapport före förväntad stängning av sammanslagningen med Hortonworks, Cloudera har tillkännagav möjligheten att få tillgång till en förhandsvisning av en ny cloud-native motsvarighet för sin Cloudera Data Vetenskap Workbench (DSW) som går full tilt på Kubernetes. Betydligt, det bär en annan branding — Cloudera Machine Learning (Cloudera ML).

Arkitektur och branding speglar två förändringar i marknaden. Den första är att flytta till molnet. Samtidigt som vi uppskattar att endast ca 25 – 30% av Cloudera är installerade basen är igång arbetsbelastning i molnet, den hastighet mot cloud antagande är omisskännlig. Ovum har förutspådde att nästa år, hälften av de nya big data arbetsbelastning kommer att köra på moln. Och som dikterar att stödja den typ av autoscaling som är möjligt i molnet.

Den andra trenden är AI, eller mer specifikt lärande. När Cloudera ursprungligen släpptes DSW, konsekvenserna av verksamheten var att bygga mer på att bygga konventionell vetenskap modeller som är statisk – de används, och då eventuella ändringar av modeller som är gjorda av människor.

I dag, att säga att det finns intresse i AI (oftast machine learning form) skulle vara en underdrift. Flytten till att anta AI återspeglar det faktum att modeller, ramar, och compute är mer tillgängliga än någonsin – både tack vare dedikerade moln-tjänster och tillgänglighet av GPU resurser för att, genom molnet kommer inte att tvinga företag att blåsa sina tre kommande års budgetar kapital för AI beräkna.

Och, med tanke på tillgången av särskilda tjänster som Databricks (för Spark arbetsbelastning), och Amazon SageMaker, Azure maskininlärning, och Google Cloud AutoML, det finns alternativ till Hadoop för att köra maskinen lärande arbetsbelastning.

Du kan säkert använda DSW för AI problem, men utmaningen ligger i att ekonomiskt hantera beräkna. Så, Cloudera anpassad DSW-erbjudande med ytterligare en: Cloudera ML. Det svarar mot dessa trender med en ny Kubernetes-baserad arkitektur som kringgår GARN resursplanering av on-premise Hadoop-kluster. För att vara tydlig, detta inte ersätta den befintliga DSW som körs på Hadoop och GARN, men det ger en annan version som fungerar i Kubernetes miljöer.

Detta är inte första gången som Cloudera har stött behållare för data vetenskap eller ML arbetsbelastning, med hjälp av containrar, Cloudera kunde paket de ömsesidiga beroenden som behövs för fysisk distribution. Men med tanke på att den ursprungliga DSW var inriktade på Cloudera företagskunder att köra Hadoop kluster, det sprang Gnista arbetsbelastning under GARN för att passa in i samma spridning.

Molnet är en annan historia. Först ut, data sjön är normalt i moln objekt lagrar, inte HDFS. För det andra, Cloudera CDH (med hjälp av GARN) inte har stöd för out-of-the-box autoscaling — förmågan att ramp upp och ner beräkna kapacitet — eftersom det var utformade för att fungera på kluster där data och beräkna var på samma noder. Med Kubernetes bli de facto standard för cloud native-beräkna (även AWS, som hade sin egen hantering av behållare tjänster, har lite kulan och börjat erbjuda en hanterad Kubernetes service), tärningen kastad för Cloudera. Om det ville stödja kunder i molnet, DSW eller dess efterföljare skulle ha att omfamna Kubernetes, inte GARN.

Cloudera ML är nu i begränsad privat förhandsvisning, stöd för tillgång till data i molnet objekt lagrar, HDFS och externa databaser, med distribution i den offentliga moln, eller slut på lokaler (i privata moln) via OpenShift.

Bredare frågor

Medan Cloudera ML är bolagets första versionen av en 100% Kubernetes-baserad produkt, vi vill inte se detta som en isolerad razzia eller avvikare. I bakgrunden, Apache Hadoop gemenskapen har påbörjat frikoppling Hadoop från HDFS så att cloud object storage kommer också att vara en första klassens medborgare. Med Hadoop inte längre den enda plats för att köra big data, eller närmare bestämt, ML arbetsbelastning, vi skulle inte bli förvånad om någon gång, Cloudera släpper Cloudera ML för att köra på någon Kubernetes kluster, i lokaler eller i det publika molnet.

Och det är där lite bredare frågor kommer in.

Klart, Cloudera kommer att fortsätta att stödja sig på plats, vilket är kärnan i dess nuvarande installerade basen. Som en lokal leverantör som sträcker sig mot molnet, det kommer i allt högre grad differentiera sig genom sitt stöd av hybrid. Men att stödja hybrid innebär att lägga till cloud-inhemska alternativ, precis som det är nu gör genom att utöka sin DSW-produktlinje med Cloudera ML. Så, hur är det med andra arbetsbelastning som data teknik eller data warehousing? I molnet, de kan också dra nytta av att köra på Kubernetes kluster.

Och att ännu en gång leder till den eviga frågan om vad som gör Hadoop, Hadoop. Minns att det finns insatser pågår för att göra Hadoop-plattform som är mer moln-vänlig, från frikoppling lagring för tillmötesgående containrar arbetsbelastning. Det är ett långsiktigt initiativ som är på gång i Apache gemenskapen. Så, när du ersätta HDFS med cloud object storage, och MapReduce med Gnista, vad har du kvar? Det är där styrning, ledning och stöd av flera olika typer av arbetsbelastning kommer att skilja Hadoop från big data-punkt-tjänster. Om resurserna styrs av GARN eller Kubernetes kommer att bli en akademisk fråga. Det är inte ens 2019 ännu, men vi ska ändå göra denna förutsägelse: I framtiden, den typ av Hadoop du kör kommer att vara baserat på hur du distribuerar det.

Relaterade Ämnen:

Cloud

Digital Omvandling

Robotteknik

Sakernas Internet

Innovation

Affärssystem

0