NORSK

Cloudera is een data warehouse speler nu

175

Nul

Bijna zeven jaar geleden, in een hotel vergaderruimte in Manhattan, Mike Olson, dan Cloudera ‘ s CEO, lichtte mij op de nog vertrouwelijke Cloudera project met de naam Impala. Ik denk dat Olson wist dat hij aan het prediken was om de geconverteerde als hij vertelde me hoe inefficiënt en onvoldoende MapReduce-based computing is voor de Onderneming. Het antwoord was, zei hij, Impala ‘ s, een Bijenkorf-compatibele database die gebruikt Hadoop voor opslag, maar volledig omzeild en MapReduce zijn voor het berekenen en verwerken.

Een data warehouse in impala ‘ s kleding.
Als ik dieper uitgegraven, kwam ik erachter dat er meer aan de hand. Impala was niet alleen een MapReduce-minder Korf. In feite, Cloudera gezegd, het was eigenlijk een MPP (massively parallel processing) -data-warehouse dat gebeurde gewoon te gebruiken HiveQL als haar taal en HDFS (De Hadoop Distributed File System) voor opslag.

Lees ook: Cloudera ‘s Impala’ s brengt Hadoop te SQL en BI
Lees ook: SQL en Hadoop: Het is ingewikkeld

Uiteindelijk, Impala ging open source, eerst onder de Cloudera ‘ s eigen auspiciën en vervolgens onder de Apache Software Foundation. Dus als Impala werd de generieke, Cloudera gezocht naar een merknaam voor de uitvoering van Impala in CDH, zijn eigen Hadoop/Spark distributie. Die naam werd Cloudera Analyse Database.

Het onthullen
Maar denk eraan, Impala is een echte MPP data warehouse. Dus waarom omheen draaien? Met dat in het achterhoofd, denk ik, Cloudera is vandaag de aankondiging van de komst van Cloudera datawarehouse (DW), de Impala-product op basis van voorheen bekend als Cloudera Analyse Database.

In een conference call briefing, Cloudera ‘ s Joydeep Das, Senior Director, Data Warehousing Producten en Susan Ruimte, Senior Director Corporate Marketing, legde me uit dat Cloudera DW is meer dan een merk-oefening, en voor een paar redenen.

Eerste van alles, Impala is niet meer gebonden zijn uitsluitend te HDFS — het is in feite het product kan het gebruik van Amazon S3 of Microsoft ‘ s Azure Gegevens Meer Opslaan (ADL) voor opslag. Het kan ook gebruik maken van Kudu, Cloudera de eigen zuil-opslag laag (de nomenclatuur er is met opzet — impala ‘ s en kudu beide soorten antilopen).

Lees ook: Impala, Kudu, en de Apache Incubator ‘ s van vier maanden Big Data binge

En als je in andere Cloudera en Hadoop ecosysteem componenten, zoals Sqoop, Goot, de Tint en de Korf zelf, zie je waarom Cloudera voelt het heeft een end-to-end-oplossing voor de moderne data-opslag aan te bieden.

Hoofd (node) in de wolken
De S3 en de ADL compatibiliteit betekent ook dat Cloudera DW in de cloud kunnen draaien — en, in feite, het is in staat om dit te doen voor een bepaalde tijd, zolang je het niet erg vond dat doet op een Infrastructure as a Service (IaaS) op basis van de wolk van virtuele machines. Maar Cloudera heeft een Platform-as-a-Service (PaaS) en cloud-aanbod voor de Component en de Vonk, de zogenaamde Altus. Dus waarom niet toevoegen van de DW?

In feite, Cloudera is precies dat te doen, de invoering van een PaaS versie van Cloudera DW, genaamd…wait for it…Altus Data Warehouse. Als met Cloudera DW op IaaS, Altus DW zal gebruik maken van de cloud storage laag, te laten berekenen en de opslag apart te worden geschaald…maar de nieuwe PaaS aanbieding zal ook ontslaat de klant van het hebben van een voorziening en het beheer van de infrastructuur.

Nog steeds een beetje angst en beven?
In mijn briefing met Cloudera, heb ik geleerd dat het bedrijf niet gericht zijn op de Cloudera/Altus DW producten op het Enterprise data warehouse (EDW) scenario ‘ s. In plaats daarvan, Das vertelde me, de producten zijn gericht op data mart-stijl implementaties die in afdelingen of op basis van een scenario in de natuur.

Specifiek, Cloudera is gericht op drie kern-use case categorieën:

Het optimaliseren van bestaande Gegevens MartsWorking met niet-transactionele gegevens, zoals log-bestanden en IoT sensor dataAnalyzing tekstuele gegevens in combinatie met relationele gegevens, bijvoorbeeld bij de dokter, de opmerkingen en het elektronisch medisch dossier

Cloudera voelt dat implementaties in de drie bovengenoemde categorieën zijn waar de groei in de markt is. Ik zou het eens, en denk dat targeting ze is niet onverstandig. Maar ik ben nog steeds geraakt hoe, zelfs met het product opnieuw gebrandmerkt als een data warehouse, Cloudera is nog steeds de nadruk op het gebruik van het product als een EDW.

Ongeacht retoriek, maar de bovenstaande scenario ‘ s zijn ook op de radar van cloud data warehouse bedrijven als Sneeuwvlok, Amazon (met de Roodverschuiving van het product), Microsoft (Azure SQL datawarehouse) en Google (met BigQuery). Dus of we nu praten marts of magazijnen, Cloudera, de baanbrekende Hadoop distributie leverancier, is nu een relationeel datawarehouse mededinger.

Verwante Onderwerpen:

Cloud

Digitale Transformatie

Robotica

Het Internet van Dingen

Innovatie

Enterprise Software