Cloudera Data Platform lancerer med multi/hybrid cloud-kyndige og mindskes Hadoop kompleksitet

0
86
cdp-diagram.png

Den Cloudera Data Platform (CDP) arkitektur

Kredit: Cloudera

Cloudera Data Platform (CDP) lancerer i dag. Det er en skelsættende udgivelse, og bringer eksistentielle ændringer til Hadoop og Big Data alt i alt. Det er kulminationen af flere udviklinger, herunder Cloudera ‘ s fusion med sin tidligere rival, Hortonworks. Og presset for at levere det har været intens.

Læs også: Cloudera, Hortonworks fusionere i aftale til en værdi af $5,2 milliarder
Læs også: Cloudera og Hortonworks: Fortabte sønner genforene
Læs også: Cloudera og Hortonworks’ fusion lukker; quo vadis Big Data?

Baggrundshistorie

Når Cloudera annonceret sin første post-Hortonworks-fusion kvartalsvise resultater denne sidste Marts, markedet stejlede. Cloudera oplyses resultater for FY19 Q4 og udsigterne for FY20 Q1, der var skuffende i forhold til Wall Street skøn. Det diskuteres, hvordan kunderne blev udskyde fornyelsen aftaler forud for udgivelsen af CDP, som ville fusionere CDH og HDP, de respektive Cloudera og Hortonworks arv Hadoop/Spark-distributioner.

I det væsentlige, Cloudera pålagt Osborne effekt på sig selv, og fra der, løbet var at skibet CDP for at stoppe den tilsyneladende blødning. Ikke længe efter, administrerende DIREKTØR Tom Reilly og grundlægger/Chief Strategy Officer Mike Olson begge gik på pension. Over-ivrige iagttagere i branchen begyndte at skrive deres Cloudera obits. På det tidspunkt, ZDNet chefredaktør Lawrence Dignan gav en mere empirisk analyse: “Nu er udfordringen for Cloudera er klart: Det kan ikke råd til forsinkelser med Cloudera Data Platform.”

Læs også: Cloudera øjne Cloudera Data Platform lancere i løbet af de kommende to kvartaler som AWS konkurrence væve
Læs også: Cloudera kunder ramt bremser på fornyelser foran Cloudera Data Platform, CEO Reilly til at gå på pension

Som om det ikke var nok, intriger, sidste måned, aktivist investor Carl Icahn og hans associerede tog en 18%+ andel i Cloudera og vandt to pladser på Cloudera Bestyrelsen. Men nu Cloudera kan måske udånder. Selskabet meddelte, upbeat FY20 Q2 resultater tidligere i denne måned, og i dag, som den årlige Lag Data New York-konferencen (som Cloudera præsenterer med O ‘ Reilly) starter op, Cloudera er faktisk at lancere CDP.

Læs også: Cloudera beats Q2 skøn som abonnement indtægter stige

Executive overblik

Cloudera midlertidige CEO, Martin Cole, og Chief Marketing Officer, Mick Hollison orienterede mig om virksomhedens retning og CDP-strategi. Cole forklarede mig, at det omfavnede aktivist investor Carl Icahn indgreb, fordi Icahn anerkendt Cloudera var undervurderet. Og Hollison forklarede mig, at CDP blev ufortrødent med fokus på enterprise-kunder, der bærer ud, at vurdering i betragtning af, at Cloudera har 140 kunder at bruge $1M+ per år med dem, og en bredere befolkning på over 950 kunder (herunder ovennævnte 140), der tilbringer over $100K/år.

Produkt deets

Cloudera Chief Product Officer, Hortonworks medstifter og Hadoop committer Arun Murthy personligt orienterede mig og demoed CDP. Som han skrælles lag af løg, blev det klart for mig, at CDP = CDH + HDP er ikke den korrekte ligning. CDP er en total remake af Hadoop/Spark stak. Mens det kan lyde som markedsføring af overdrivelse, det synes virkelig at være tilfældet. CDP er en virtualiseret platform, der kan håndtere data og data arbejdspres, spin eller omfanget af den nødvendige klynge infrastruktur og software op og ned efter behov, og gøre det på-lokaler såvel som på tværs af de tre store offentlige skyer.

I virkeligheden, kombineret CDH/HDP distro er næsten en implementering detaljer og rå indvolde, det er blevet omdøbt og re-kategoriseres som “Cloudera Runtime.” Det er ikke sådan, at core distribution er ubetydelige; det er helt grundlæggende. Men, som med en bygning, fonden ikke er noget, man kan se, administrere, interagere med eller endda tænker på. Det er infrastruktur. Præcis som Hadoop (og Spark) altid skulle have været.

Platformen er lykkedes gennem en forbedret version af Cloudera ‘ s Fælles Data Erfaringer (SDX) og overflader Cloudera Runtime kapaciteter gennem en komponent kaldet Cloudera Data Hub, som Murthy, der er beskrevet for mig som svarer til Amazons Elastic MapReduce (EMR). Men der er meget mere, end runtime, SDX og Data-Hub; CDP omfatter en lang række andre services, herunder:

Cloudera Machine Learning (CML), der giver AI kapaciteter, der er en forbedring af tidligere Cloudera Data Videnskab Workbench (CDSW)Cloudera Data Warehouse (CDW), et data warehouse platform, der kan fungere som løftestang for enten Apache Hive eller ImpalaCloudera Data Flow (CDF), baseret på den tidligere Hortonworks Data Flow og Apache NiFiCloudera Data Engineering
Cloudera Operationel Database (baseret på Apache HBase)

Kontrol, plain and simple

Det hele er meget mere end summen af delene selv, på grund af Cloudera ‘ s kontrol fly, bestående af sit Management Console, Arbejdsbyrde Manager, Replication Manager og Data Catalog (med spor, sin slægt at den tidligere Hortonworks Data Steward Studio og Apache Atlas). Sammen, disse komponenter giver en samlet ledelse og implementering på tværs af on-premises miljøer, og alle de tre store offentlige skyer. Murthy også forklarede mig, at prem erfaring har den samme Software som en Service, der føler, at det, at cloud-indsat CDP gør, og det kan sættes op på under en time. For noget, der er relateret til on-premises Hadoop, at den slags fremskyndet setup er uden fortilfælde.

I virkeligheden, styre flyet lader en eksisterende on-prem-implementering “burst til cloud” og vil selv give et estimat af, hvad det vil koste at køre der. Forudsat at kunden er tilfreds med det svar, hun vil være i stand til at implementere data (sammen med den politik, der fastholder en ordentlig styring af det), stak komponenter, og alle afhængigheder, til sky af hendes valg.

Tekniske oplysninger

Dette er alle gjort muligt ved rearchitecting de ældre distributioner til at adskille beregning og lagring, udskiftning af Hadoop er Distributed File System (HDFS) med Ozon (en on-premises objekt butik) eller sky objekt butikker, og Hadoop er GARN med Kubernetes (K8s), pludselig allestedsnærværende open source container orkestrering teknologi. Cloudera bruger RedHat ‘s OpenShift-baseret K8s klynger på stedet eller i skyen, vil føre til Azure Kuberenetes Service (AKS), Google Kubernetes Motor (GKE) eller Amazon Web Services’ (AWS’) Elastisk Kubernetes Service (EKS). K8s gør alle denne overførsel og just-in-time instantiering muligt af to årsager: (1) det giver en abstraktion over på lokaler datacenter og alle de tre store offentlige skyer, og (2) K8s noder spin op meget hurtigere end at gøre den offentlige skyer’ Infrastruktur som en Tjeneste (IaaS) platforme’ virtuelle maskiner (VMs).

De instrukser, dynamiske karakter Docker beholdere og K8s klynger gør Hadoop/Spark klynger bærbare, elastisk skalerbar og disponibel. Tilføj i CDP ‘ s evne til at udnytte AWS Simple Storage Service (S3), Azure Data Søen Opbevaring (ADLS) eller Google Cloud Storage (GCS) i skyen, og Okta/SAML for single sign on, og den pakke, der er komplet. Klynger er så dynamisk, i virkeligheden, at i henhold til Murthy, autoriseret adgang fra BI-værktøjer, som kan forårsage Cloudera Data Warehouse klynger for at dreje op på efterspørgsel, blot ved at forbinde dem via JDBC.

Oplyst retning og klare valg

Jeg har ikke været hands-on med CDP, men Murthy forsikrede mig om, at alt, hvad han var demoing til mig, var baseret på frigivet bits. Og, mens kontrolleret demoer kan altid bruges til at sløre ustabilitet eller som endnu ikke gennemførte funktioner, selv om CDP ‘ s funktionalitet var bare en køreplan, du er nødt til at finde det imponerende og oplyst. Med Cloudera ‘ s erklærede fokus på Virksomhedens kunder, selv om, jeg ville blive overrasket, hvis det, jeg så, var den rene røg og spejle. Virksomheden og dens ledelse ved deres ting er at være reel, hvis virksomheden kommer til at kaste den stigmatisering af sine tidligere kvartalsvise resultater.

Med Cloudera og Hortonworks fusioneret, og MapR ‘s aktiver nu trukket sig tilbage i HPE, kundernes valg, er klar: brug af cloud-udbydere” “house brand” Hadoop services (AWS’ EMR, Azure HDInsight eller Google Cloud Dataproc) for commoditized Hadoop og Spark, hvor den gamle Cloudera var ved at tabe terræn, eller gå med en value-added-specialist, der giver abstraktion, management og multi/hybrid cloud-kapaciteter, der indgår i den nye Cloudera.

Relaterede Emner:

Cloud

Digital Transformation

Robotteknologi

Tingenes Internet

Innovation

Virksomhedens Software