Cloudera Data Plattform lanserar med multi/hybrid cloud kunniga och reducera komplexitet Hadoop

0
108
cdp-diagram.png

Den Cloudera Data Plattform (CDP) arkitektur

Kredit: Cloudera

Cloudera Data Plattform (CDP) lanserar idag. Det är en vattendelare släppa och ger de existentiella förändringar Hadoop och Big Data generellt. Det är kulmen av flera händelser, inklusive Cloudera sammanslagning med sin forne rival, Hortonworks. Och trycket att leverera det har varit intensivt.

Läs också: Cloudera, Hortonworks samman i en affär värd 5,2 miljarder usd
Läs också: Cloudera och Hortonworks: Förlorade söner återförena
Läs också: Cloudera och Hortonworks ” fusion stänger; quo vadis Big Data?

Bakgrund

När Cloudera meddelade sitt första inlägg-Hortonworks-fusion kvartalsresultat detta tidigare Mars, marknaden reagerade. Cloudera redovisas resultat för FY19 Q4 och outlook för FY20 Q1 som var en besvikelse i förhållande till Wall Street uppskattningar. Därefter diskuteras hur kunder att skjuta upp förnyelse avtal inför lanseringen av CDP, som skulle sammanfoga CDH och HDP, respektive Cloudera och Hortonworks äldre Hadoop/Spark-distributioner.

I huvudsak, Cloudera infördes Osborne inverkan på sig själv och från det, loppet var på fartyg CDP för att stoppa uppenbar blödning. Inte långt efter, VD Tom Reilly och grundare/Chief Strategy Officer Mike Olson båda gick i pension. Över-ivriga observatörer industri började skriva sina Cloudera obits. På den tiden, ZDNet chefredaktör Lawrence Dignan gav en mer empirisk analys: “Nu utmaningen för Cloudera är tydlig: Det kan inte råd med några förseningar med Cloudera Data Plattform.”

Läs också: Cloudera ögon Cloudera Data som Plattform för att lansera under de kommande två kvartalen AWS konkurrens vävstolar
Läs också: Cloudera kunder hit bromsar på förnyelse inför Cloudera Data Plattform, VD Reilly att gå i pension

Som om inte det vore nog intriger, förra månaden, aktivist investeraren Carl Icahn och hans partners tog en 18%+ insats i Cloudera och vann två platser på Cloudera Styrelsen. Men nu Cloudera kan kanske andas ut. Bolaget meddelade upbeat FY20 Q2 resultat tidigare denna månad, och idag, som den årliga Strata Data New York-konferensen (som Cloudera presenterar med O ‘ Reilly) startar upp, Cloudera är verkligen lansera CDP.

Läs också: Cloudera slår Q2 uppskattningar som prenumeration intäkter stiga

Verkställande översikt

Cloudera är interimistisk VD, Martin Cole, och Chief Marketing Officer, Mick Hollison informerade mig om företagets riktning och CDP strategi. Cole förklarat för mig att det omfattade aktivist investeraren Carl Icahn ingripande eftersom Icahn redovisas Cloudera var undervärderad. Och Hollison förklarade för mig att CDP var ogenerat fokuserade på företagets kunder att bära ut denna bedömning, med tanke på att Cloudera har 140 kunder att spendera $1M+ per år med dem och en bredare befolkning på över 950 kunder (inklusive den tidigare nämnda 140) att spendera över $100K/år.

Produkten deets

Cloudera Chief Product Officer, Hortonworks grundare och Hadoop committer Arun Murthy personligen informerade mig och demonstrerades CDP. Som han har skalats av lager av lök, blev det klart för mig att CDP = CDH + HDP är inte korrekt ekvation. CDP är en total remake av Hadoop/Gnista stack. Även om det kan låta som marknadsföring överdrift, det verkar verkligen vara fallet. CDP är en virtualiserad plattform som kan hantera data och arbetsbelastning, snurra eller skala den nödvändiga kluster infrastruktur och programvara upp och ner on-demand, och göra det på lokaler liksom i hela tre stora offentliga moln.

I själva verket, i kombination CDH/HDP distro är nästan ett genomförande detaljer och råa inälvor av det har bytt namn och nytt-kategoriseras som “Cloudera Runtime.” Det är inte så att kärnan distro är oviktigt; det är helt grundläggande. Men, som med en byggnad, stiftelsen inte något du se, hantera och interagera med eller ens tänka på. Det är infrastruktur. Precis som Hadoop (och Spark) alltid borde ha varit.

Plattformen hanteras genom en förbättrad version av Cloudera är Delade Data Erfarenhet (SDX) och ytor Cloudera Runtime kapacitet genom en komponent som kallas Cloudera Data Hub, som Murthy beskrev för mig som motsvarar Amazon Elastic MapReduce (EMR). Men det finns mycket mer än runtime, SDX och Data Hub, CDP finns ett flertal andra tjänster, bland annat:

Cloudera Machine Learning (KML), genom att ge AI kapacitet som är ett tillbehör till den tidigare Cloudera Data Vetenskap Workbench (CDSW)Cloudera Data Warehouse (CDW), ett data warehouse plattform som kan utnyttja antingen Apache Bikupa eller ImpalaCloudera Data Flöde (CDF), baserat på tidigare Hortonworks Flödet av Data och Apache NiFiCloudera Data Engineering
Cloudera Operativa Databas (baserad på Apache HBase)

Kontroll, rätt och slätt

Det hela är mycket mer än summan av delarna dock, på grund av Cloudera är kontroll plan, som består av dess Management Console, Arbetsbelastning Manager, Replication Manager och Data Katalog (med spår av sin härstamning till den tidigare Hortonworks Data Förvaltare Studio och Apache Atlas). Tillsammans utgör dessa komponenter möjliggöra enhetlig hantering och distribution över på lokaler miljöer och alla tre stora offentliga moln. Murthy också förklarat för mig att on-prem erfarenhet har samma Mjukvara som en Tjänst känna till att molnet-distribuerat CDP gör och det kan ställas in i under en timme. För allt som rör på lokaler Hadoop, som typ av snabba ställtider är bortom motstycke.

I själva verket kontroll plan kan en befintlig on-prem genomförande “burst till molnet” och kommer även att ge en uppskattning av vad det kommer att kosta att köra dit. Förutsatt att kunden är nöjd med svaret, hon kommer att kunna distribuera data (tillsammans med den politik som upprätthåller god styrning av det), stacken-komponenter och alla beroenden, till ett moln av hennes val.

Tekniska detaljer

Allt detta är möjligt genom rearchitecting den äldre distributioner att separata beräkningar och lagring, som ersätter Hadoop (Distributed File System HDFS) med Ozon (en på lokaler objekt butik) eller moln objekt lagrar, och Hadoop GARN med Kubernetes (K8s), den plötsligt överallt öppen källkod behållare orkestrering teknik. Cloudera använder RedHat OpenShift-baserade K8s kluster på lokaler eller i molnet, som kommer att distribuera till Azure Kuberenetes Service (AKS), Google Kubernetes Motor (GKE) eller Amazon Web Services (AWS’) Elastisk Kubernetes Service (EKS). K8s gör allt detta bärbarhet och just-in-time instansiering möjligt av två skäl: (1) det ger en abstraktion över på lokaler datacenter och alla tre stora publika moln (2) K8s noder snurra upp mycket snabbare än de offentliga moln ” Infrastructure as a Service (IaaS) plattformar för virtuella maskiner (VMs).

De scriptade, dynamiska karaktären av Docker behållare och K8s kluster gör Hadoop/Gnista kluster bärbar, elastiskt skalbar och disponibla. Lägg till i CDP: s förmåga att utnyttja AWS Simple Storage Service (S3), Azure Data Sjön Lagring (ADLS) eller Google Cloud Lagring (GCS) i molnet, och Okta/SAML för enkel inloggning, och paketet är komplett. Kluster är så dynamiska, i själva verket, som enligt Murthy, auktoriserad åtkomst från BI-verktyg som kan orsaka Cloudera Data Warehouse kluster för att snurra på efterfrågan, bara genom att ansluta till dem via JDBC.

Upplyst riktning och tydliga val

Jag har inte varit hands-on med CDP, men Murthy försäkrade mig om att allt var han demonstrerar till mig var baserad på den släppt bitar. Och samtidigt kontrolleras demos kan alltid användas för att dölja instabilitet eller som ännu inte genomförs alls funktioner, även om CDP: s funktionalitet var bara en färdplan, du skulle ha för att hitta den imponerande och upplyst. Med Cloudera är uttalad fokus på företagskunder, men jag skulle bli förvånad om det jag såg var bara rök och speglar. Bolaget och dess ledning vet sina grejer måste vara riktiga, om bolaget är på väg att kasta bort stigmatiseringen av sina tidigare kvartal.

Med Cloudera och Hortonworks samman, och MapR verksamhet tillgångar som nu dragit sig tillbaka till HPE, kundernas val är tydliga: att använda moln-leverantörer’ “egna varumärken” Hadoop services (AWS’ EMR, Azure är HDInsight eller Google Cloud Dataproc) för standardiserad Hadoop och Gnista, där den gamla Cloudera höll på att förlora mark, eller gå med ett mervärde specialist som ger abstraktion, förvaltning och multi/hybrid cloud kapacitet, som ingår i den nya Cloudera.

Relaterade Ämnen:

Cloud

Digital Omvandling

Robotteknik

Sakernas Internet

Innovation

Affärssystem