Cloudera Machine Learning version tager cloud-native vej

0
111

Nul

cloudera.png

I hælene på sin sidste kvartalsrapport forud for den forventede lukning af fusionen med Hortonworks, Cloudera har meddelt, at evnen til at få adgang til et uddrag af et nyt cloud-native modstykke til sin Cloudera Data Videnskab Workbench (DSW), der går fuld tilt på Kubernetes. Betydeligt, og det bærer en anden branding — Cloudera Machine Learning (Cloudera ML).

Arkitektur og branding afspejler to skift i markedet. Den første er overgangen til cloud. Mens vi anslår, at kun omkring 25 – 30% af Cloudera er installeret base kører workloads i skyen, hastighed mod cloud adoption er umiskendelig. Ægget har forudsagt, at næste år, at halvdelen af de nye big data arbejdsopgaver vil være der kører på cloud. Og der dikterer, at støtte den type autoscaling, der er muligt i skyen.

Den anden tendens er AI, eller mere specifikt machine learning. Når Cloudera oprindeligt udgivet DSW, hovedparten af aktivitet, der var ved at bygge mere på at opbygge konventionelle data videnskab modeller, der er statiske – de er indsat, og derefter eventuelle ændringer, der er foretaget til de modeller, der er gjort af folk.

I dag, til at sige, at der er interesse for AI (for det meste machine learning form) ville være en underdrivelse. Overgangen til vedtagelse af AI afspejler det faktum, at modeller, frameworks og beregne er mere tilgængeligt end nogensinde før – takket være både dedikerede cloud-tjenester og tilgængelighed af GPU ressourcer, der gennem sky vil ikke tvinge virksomheder til at blæse deres næste tre år af kapital budgetter for AI beregne.

Og i betragtning af tilgængeligheden af dedikerede tjenester som Databricks (for Gnist arbejdspres), og Amazon SageMaker, Azure Machine Learning, og Google Cloud AutoML, der er alternativer til Hadoop for at køre machine learning arbejdsmængder.

Du kan helt sikkert bruge DSW for AI problemer, men udfordringen er i økonomisk styring beregne. Så, Cloudera tilpasset den DSW tilbud med en ekstra one: Cloudera ML. Det svarer til at disse tendenser med en ny Kubernetes-baseret arkitektur, der omgår GARN ressource planlægning af on-premise Hadoop klynger. At være klart, at dette ikke erstatte den eksisterende DSW, der kører på Hadoop og GARN, men det giver en anden udgave, der virker i Kubernetes miljøer.

Dette er ikke første gang, at Cloudera har støttet beholdere til data videnskab eller ML arbejdsmængder; ved hjælp af beholdere, Cloudera kunne pakke den indbyrdes afhængighed er nødvendige for den fysiske udbygning. Men i betragtning af, at den oprindelige DSW var rettet mod Cloudera Virksomhedens kunder, der kører Hadoop klynger, det løb Gnist arbejdsbyrde under GARN til at passe ind i den samme installation.

Cloud er en anden historie. Første off, data-søen ligger typisk i sky objekt butikker, som ikke HDFS. For det andet, Cloudera CDH (ved hjælp af GARN), understøtter ikke out-of-the-box autoscaling — muligheden for at rampe op-og ned-beregne kapaciteten for-fordi det var designet til at fungere på klynger, hvor data og beregne var på samme noder. Med Kubernetes er ved at blive de facto standard for cloud native beregne (AWS selv, hvilket havde sin egen proprietære container management services, har lidt i det sure æble og begyndt at tilbyde en administreret Kubernetes service), die blev kastet for Cloudera. Hvis det ønskede at støtte kunder i skyen, DSW eller dens efterfølger ville være nødt til at omfavne Kubernetes, ikke GARN.

Cloudera ML er nu i begrænset privat preview, støtte til adgang til data i cloud objekt butikker, HDFS, og eksterne databaser, med implementering i den offentlige sky, eller, i sidste ende på lokaler i private skyer) via OpenShift.

Bredere spørgsmål

Mens Cloudera ML er selskabets første udgivelse af et 100% Kubernetes-baseret produkt, vi ikke ser dette som et isoleret strejftog eller afvigende. I baggrunden, Apache Hadoop fællesskab har indledt afkobling Hadoop fra HDFS så sky objekt opbevaring vil også være en first-class citizen. Med Hadoop ikke længere det eneste sted, for at køre med big data, eller specifikt, ML arbejdspres, vi ville ikke blive overrasket, hvis det på et tidspunkt, Cloudera slipper Cloudera ML for at køre på enhver Kubernetes klynge, på stedet eller i den offentlige sky.

Og det er her, nogle bredere spørgsmål kommer ind.

Det er klart, Cloudera kommer til at fortsætte med at støtte on-premise, som er kernen i sin nuværende installerede base. Som en on-premise-leverandør, der er en udvidelse mod skyen, vil det i stigende grad differentiere sig gennem sin støtte til hybrid. Men der understøtter hybrid betyder, at tilføje cloud-native muligheder, ligesom det nu gør ved at forstærke sin DSW produkt på linje med Cloudera ML. Så, hvad om andre arbejdsopgaver som data engineering eller data warehousing? I den sky, de kan også drage fordel af at køre på Kubernetes klynger.

Og, endnu en gang fører til det evige spørgsmål om, hvad der gør Hadoop, Hadoop. Husk på, at der er bestræbelser i gang for at gøre Hadoop platform mere cloud-venligt, fra afkobling af skiudstyr at rumme containertransport arbejdsmængder. Disse er de langsigtede initiativer i gang i Apache fællesskabet. Så, når du erstatte HDFS med sky objekt opbevaring, og MapReduce med Gnist, hvad er du tilbage med? Det er her, styring, ledelse og understøttelse af flere typer af arbejdsopgaver vil differentiere Hadoop fra big data punkt tjenester. Uanset om de ressourcer, der er dikteret af GARN eller Kubernetes vil blive et akademisk spørgsmål. Det er ikke engang 2019 endnu, men vi vil stadig gøre denne forudsigelse: I fremtiden, den slags Hadoop du kører vil være baseret på, hvordan du installerer det.

Relaterede Emner:

Cloud

Digital Transformation

Robotteknologi

Tingenes Internet

Innovation

Virksomhedens Software

0