Cloudera är en data warehouse-spelare nu

0
138

Noll

För nästan sju år sedan, i ett hotell möte rum i Manhattan, Mike Olson, då Cloudera VD, informerade mig om det fortfarande konfidentiella Cloudera projekt som heter Impala. Jag tror Olson visste att han predikade för de konverterade när han berättade för mig hur ineffektiva och otillräckliga MapReduce-baserade datorer var för Företaget. Svaret, sade han, var Impala, en Bikupa-kompatibel databas som används för Hadoop för lagring men helt förbi MapReduce för att beräkna och behandling.

Ett datalager i impala kläder.
Som jag grävt djupare, jag fick reda på att det fanns mer till berättelsen. Impala var inte bara en MapReduce-mindre Kupan. I själva verket, Cloudera sa, det var faktiskt en MPP (massively parallel processing) -baserade datalager som bara råkade använda HiveQL som sitt språk och HDFS (Hadoop (Distributed File System) för lagring.

Läs också: Cloudera är Impala ger Hadoop till SQL och BI
Läs också: SQL och Hadoop: Det är komplicerat

Så småningom, Impala gick open source, först under Cloudera egen regi och sedan under Apache Software Foundation. Så Impala blev det generiska, Cloudera sökte ett varumärke för genomförandet av Impala i CDH, sin egen Hadoop/Gnista distribution. Att namnet blev Cloudera Analytiska Databas.

Den visar
Men, kom ihåg, Impala är en sann MPP data warehouse. Så varför slå runt busken? Med detta i åtanke, antar jag, Cloudera är i dag meddelar de kommer ut på Cloudera Data Warehouse (DW), Impala-baserad produkt tidigare känd som Cloudera Analytiska Databas.

I en telefonkonferens informationsmöte, Cloudera är Joydeep Das, Senior Director, Data Warehousing Produkter och Susan Utrymme, Senior Director of Corporate Marketing, förklarade för mig att Cloudera DW är mer än ett varumärke träning, och för ett par anledningar.

Först av allt, Impala är inte längre bundet till HDFS — i själva verket, kan produkten använder Amazon S3 eller Microsofts Azure-för synkronisering av Data Sjön Store (ADLS) för lagring. Det kan även använda Kudu, Cloudera egna kolumner för lagring lager (nomenklatur det är avsiktligt — impala och kudu är både arter av antilop).

Läs också: Impala, Kudu, och Apache Inkubator fyra-månaders Big Data binge

Och när du lägger i andra Cloudera och Hadoop ekosystem av komponenter, som Sqoop, Vattenränna, Nyans och bryta sig, kan du se varför Cloudera känner att det har en end-to-end-lösning för moderna data warehousing.

Huvud (nod) i molnen
S3 och ADLS kompatibilitet innebär också att Cloudera DW kan köras i molnet — och i själva verket har fått möjlighet att göra så under en tid, så länge du inte har något emot att göra så på en Infrastruktur som Tjänst (IaaS) och i enlighet med moln av virtuella maskiner. Men Cloudera har haft en Plattform som Tjänst (PaaS) cloud erbjuder för Kupan och Gnista, som kallas Altus. Så varför inte lägga till DW?

I själva verket, Cloudera är bara att göra det, att införa en PaaS version av Cloudera DW, som heter…vänta på det…Altus Data Warehouse. Som med Cloudera DW på IaaS, Altus DW kommer att använda moln lagring lager, för att möjliggöra beräkningar och lagring för att bli en separat skalas…men den nya PaaS erbjudandet kommer också att avlasta kunden med att tillhandahålla och förvalta infrastruktur.

Fortfarande lite bävan?
I min genomgång med Cloudera, lärde jag mig att bolaget är inte inriktade på Cloudera/Altus DW produkter på Företagets data warehouse (EDW) scenarier. Istället, Das berättade för mig, de produkter som är inriktade på data mart-style-implementeringar som antingen flytt eller scenario-baserad i naturen.

Specifikt, Cloudera är inriktade på tre grundläggande användning fallet kategorier:

Optimera befintliga Data MartsWorking med icke-transaktionella data, som loggfiler och sakernas internet sensor dataAnalyzing textdata i takt med relationsdatabaser, till exempel läkares anteckningar och elektroniska journaler

Cloudera känns som implementationer i den ovannämnda tre kategorier är där tillväxten i marknaden. Jag kanske håller med, och tycker att rikta dem är inte oklokt. Men jag slås fortfarande om hur, även med produkten re-branded som ett datalager, Cloudera är fortfarande de-betona användningen av produkten som ett EDW.

Oavsett retorik, men exemplen ovan är väl på radar av cloud data warehouse företag som Snowflake, Amazon (med dess Rödförskjutning produkt), Microsoft (med sin Azure SQL-Data Warehouse) och Google (med BigQuery). Så oavsett om vi pratar marts eller lager, Cloudera, nyskapande Hadoop distribution säljaren, är nu en relationell data warehouse utmanare.

Relaterade Ämnen:

Cloud

Digital Omvandling

Robotteknik

Sakernas Internet

Innovation

Affärssystem

0