Cloudera er et data warehouse spiller nu

0
85

Nul

Næsten syv år siden, på et hotel, møde værelse i Manhattan, Mike Olson, så Cloudera ‘ s administrerende DIREKTØR, orienterede mig om de stadig fortrolige Cloudera projekt kaldet Impala. Jeg tror, Olson vidste, at han prædikede til den konverterede som han fortalte mig, hvordan ineffektiv og utilstrækkelig MapReduce-baseret computing blev for Virksomheden. Svaret, han sagde, var Impala, en Hive-kompatibel database, der bruges af Hadoop for opbevaring, men helt omgået MapReduce for beregning og behandling.

Et data warehouse i impala ‘ s tøj.
Som jeg gravet dybere, jeg fandt ud af der var mere til den historie. Impala var ikke bare et MapReduce-mindre Hive. I virkeligheden, Cloudera sagde, det var faktisk en MPP (massively parallel processing) -baseret data warehouse, der lige er sket for at bruge HiveQL som dets sprog og HDFS (Hadoop Distributed File System) til opbevaring.

Læs også: Cloudera ‘ s Impala bringer Hadoop til SQL og BI
Læs også: SQL og Hadoop: Det er kompliceret

I sidste ende, Impala gik open source, først under Cloudera ‘ s eget regi, og derefter under Apache Software Foundation. Så som Impalaer blev det generiske, Cloudera søgte et navn for gennemførelsen af Impala i CDH, sin egen Hadoop/Spark distribution. Dette navn blev Cloudera Analytiske Database.

Det afslører
Men husk, Impala er en sand MPP data warehouse. Så hvorfor slå omkring bush? Med det i tankerne, tror jeg, Cloudera er i dag annoncerer de, der kommer ud af Cloudera Data Warehouse (DW), Impala-baseret produkt, der tidligere var kendt som Cloudera Analytiske Database.

I et konferenceopkald briefing, Cloudera er Joydeep Das, Senior Director, Data Warehousing Produkter og Susan Plads, Senior Director for Corporate Marketing, forklarede mig, at Cloudera DW er mere end en branding-øvelse, og for et par af grunde.

Først og fremmest, Impala er ikke længere bundet til udelukkende at HDFS — i virkeligheden, at produktet kan bruge Amazon S3 eller Microsofts Azure Data Sø Butik (ADLS) til opbevaring. Det kan også bruge Kudu, Cloudera egne søjleformet storage layer (den nomenklatur, der er tilsigtet — impala og kudu er begge arter af antiloper).

Læs også: Impala, Kudu, og Apache Incubator ‘ s fire-måneders Big Data binge

Og når du så tilføje andre Cloudera og Hadoop økosystem komponenter, som Sqoop, Flume, Hue og Hive sig selv, kan du se, hvorfor Cloudera mener, at det er en end-to-end løsning for moderne data warehousing på tilbud.

Hoved (node) i skyerne
S3 og ADLS kompatibilitet betyder også, at Cloudera DW kan køre i skyen — og, i virkeligheden, det har været i stand til at gøre det i et stykke tid, så længe du ikke har noget imod at gøre, så på en Infrastruktur som en Tjeneste (IaaS) basis ved hjælp af cloud virtuelle maskiner. Men Cloudera har haft en Platform as a Service (PaaS) sky offer for Bikuben og Gnist, kaldet Altus. Så hvorfor ikke tilføje DW?

I virkeligheden, Cloudera er at gøre netop det, at indføre en Cloud-version af Cloudera DW, kaldet…vente…Altus Data Warehouse. Som med Cloudera DW på IaaS, Altus DW vil bruge cloud storage lag, for at muliggøre beregning og lagring, at blive adskilt skaleret…men den nye Cloud tilbyder, vil også fritage kunden for at skulle til at oprette og administrere infrastrukturen.

Stadig lidt bæven?
I min briefing med Cloudera, jeg har lært, at selskabet ikke er rettet mod den Cloudera/Altus DW-produkter, på Enterprise data warehouse (EDW) scenarier. I stedet, Das fortalte mig, at de produkter, der er målrettet data mart-style-implementeringer, som enten er lokale eller scenarie-baseret karakter.

Specifikt, Cloudera er rettet mod tre centrale use case kategorier:

Optimering af eksisterende Data MartsWorking med ikke-transaktionsrelaterede data, ligesom logfiler og IoT-sensor dataAnalyzing tekstuelle data i takt med relationelle data, for eksempel, lægens noter og elektroniske patientjournaler

Cloudera føler, at implementeringer i de tre ovennævnte kategorier er der, hvor væksten i markedet er. Jeg kunne blive enige, og mener, at målretning mod dem er ikke uklogt. Men jeg er stadig slået til, hvordan man, selv med produktet re-branded som et data warehouse, Cloudera er stadig nedtoner brugen af produktet som et EDW.

Uanset retorik, selvom de ovennævnte scenarier er godt på radar i skyen data warehouse virksomheder som Snefnug, Amazon (med dens Rødforskydning produkt), Microsoft (med sin Azure SQL Data Warehouse) og Google (med BigQuery). Så uanset om vi taler marts eller pakhuse, Cloudera, at den skelsættende Hadoop distribution sælger, er nu en relationel data warehouse udfordrer.

Relaterede Emner:

Cloud

Digital Transformation

Robotteknologi

Tingenes Internet

Innovation

Virksomhedens Software

0