Hortonworks Data Platform viser 3.0; nye cloud partnerskaber annonceret

0
124

Nul

Det er lidt af et mundheld i software-verdenen, at når et produkt kommer til sin tredje version, det er virkelig rammer sin skridtlængde. Første versioner er som regel det, vi nu kalder minimalt-levedygtigt produkt (MVP) udgivelser; 2.0 udgivelser typisk nok tilføje funktionalitet for at imødegå nogle af de mere ekstreme v1 smerte punkter. Men 3.0 varer, der ofte har tendens til at pasform og finish, og medfører ofte en eller to vigtige nye feature sæt.

Dette er tilfældet med version 3.0 af Hortonworks Data Platform (HDP), bliver annonceret her til morgen på Hortonwork er DataWorks Summit i San Jose, CA. HDP 3.0 er i sig selv baseret på version 3.1 af Apache Hadoop, som rent faktisk indeholder vigtige nye områder af funktionalitet.

Læs også: Data Værker, Hadoop 3.0 er rundt om hjørnet, og ‘Horton Luger Ægget’
Læs også: Hadoop 3 konfronteres med realiteterne og opbevaring vækst

Elefanten i container
Den smule, der kan få fat i de mest overskrifter er, at de job, der sendes til Hadoop er GARN ressource manager, kan nu bestå af hele Docker container billeder. Mens GARN har haft sin egen container format i nogen tid, at der er blevet flere om en kode og afhængigheder emballage format end en fuld maskine miljø format som Dokker.

Blandt andre ting, afsendelse af Docker billeder betyder, at koden, der er baseret på bestemte versioner af en bestemt software (for eksempel en bestemt version af Python) kan være sikker på at den kører godt, selv hvis bygherren ikke har nogen kontrol over, eller indsigt i, hvad der er installeret på Hadoop klynge er arbejdstager noder.

Husk på, Hadoop ‘s (og HDP’ s) støtte til Docker er ikke designet til at vende Hadoop til en generisk high-performance miljø til udførelse af vilkårlig kode. Heller ikke Lader støtte indebærer Kubernetes container orkestrering støtte, i det mindste ikke endnu. I stedet Lader støtte sikrer dynamisk kontrol over runtime environments for den slags job, Hadoop har altid kører.

HDP 3.0 omfatter også støtte til Gpu (graphics processing units) i udførelsen af Hadoop arbejde, der involverer Dybe Læring og andre AI arbejdspres, samt øget sikkerhed og styring kapaciteter, der er baseret på Apache Ranger og Atlas-projekter.

Hive 3.0: bee går søjleformet
Så cool som container teknologi er i dag, Hadoop har altid været om at få arbejdet gjort, og meget af dette arbejde har været omkring sammenlægning/summering af store datamængder. En masse af det arbejde, der er blevet uddelegeret til Apache Hive den oprindelige SQL-på-Hadoop komponent, der indgår i de fleste Hadoop-distributioner, herunder HDP.

Men at Hive en oprindelig afhængighed af MapReduce, og endnu mere de seneste integration med Apache Alican, herunder LLAP (“Leve Længe og Proces” eller nogle gange “Low Latency Analytical Processing”) gennemførelse, har været, i et ord, langsom. I forhold til de fleste data warehouse-og OLAP (OnLine Analytical Processing) teknologi, Hive bare ikke følte sig hurtigt nok til at støtte interaktive data efterforskning. Og det har affødt konkurrenter, som Gnist SQL, Apache Impala. Det er ofte følte mig som magi ville være forpligtet til at Hive hurtig nok til Business Intelligence (BI) arbejdsmængder.

Men HDP 3.0 indeholder Hive 3.0, og sidstnævnte var nu har integration med Apache Druid, en kolonne gemme data adgang og storage system rettet mod BI/OLAP-forespørgsel af tidsserie data. Nu Hive brugere kan tro på magi, som denne integration ser ud til at være en ægte win-win: Hive gevinster en interaktiv kolonne butik BI motor og Druid får en SQL-forespørgsel abstraktion over dens hidtil udelukkende JSON + REST API interface. Druid også får mulighed for at bruge Hive til at generere et indeks i stedet for at skulle bruge MapReduce job for den pågældende opgave.

Druid tabeller i Hive 3.0 er eksterne tabeller, så integration undgår en arkitektur, der er afhængige af ineffektivitet af data bevægelse. Hive vil også presse så meget ned af den forespørgsel, som det kan, for at Druid selv. Og selv om vi ikke nødvendigvis har brug for mere kompleksitet i SQL-på-Hadoop verden, noget, der gør, at Hive leve op til sin selvudnævnte rolle som et Hadoop-baseret data warehouse platform i sidste ende kunne bringe nogle enkelhed til de Hadoop verden.

Ikke-si-gør din partner
Ud over de nye HDP udgivelse, Hortonworks har en anden 3.0 under sin hat, i form af tre partnerskaber meddelelser — med Microsoft, Google og IBM-alle af dem cloud-fokuseret.

Lad os starte med Microsoft, det selskab, der oftest nævnes i forhold til den version, 3 effekt. De to virksomheder er at fremme tilgængeligheden af Hortonworks’ de tre fordelinger: HDP, HDF (Hortonwork DataFlow) og DPS (Hortonworks DataPlane Service) på Microsofts Azure IaaS (Infrastructure as a Service), der tilbyder.

Læs også: Hortonworks introducerer DataFlow, erhverver Apache NiFi-backer Onyara
Læs også: Hortonworks tilføjer en GUI til streaming-data, “Flex-Support” for hybrid cloud

Det er lidt kontra-intuitivt, da HDInsight, Microsofts PaaS (Platform as a Service) Hadoop tilbud er faktisk en HDP afledte. I sidste ende, det betyder, at Hortonworks’ cloud go-to-market initiativer vil være baseret omkring sin egen første-parts-distributioner og Microsoft får lov til at bygge kundernes valg.

Apropos valg, mens ovenstående meddelelse betyder, at HDP, HPF og DPS er nu tilgængelig på Azure samt Amazon Web Services (AWS), onboarding til Google Cloud Platform (GCP) er i Hortonworks bedste interesse, især i betragtning af de “tre” tema. Og at meget onboarding er ved at blive annonceret ved Hortonworks i dag, med tilgængeligheden af HDP og HDF om god klinisk praksis. Integrationen vil omfatte mere end blot tilgængeligheden af Hortonwork ‘ s teknologi-men: det indeholder også indfødte adgang til Google Cloud Storage fra Hadoop job på HDP, som slutter sig til lignende støtte til Amazon Simple Storage Service (S3) og Azure Blob Storage.

Den tredje og sidste meddelelse indebærer en mere tre-bogstavs forkortelse: IBM. Big Blue har annonceret, i sin egen blog-indlæg, en helt ny service, som kaldes IBM Vært Analytics med Hortonworks (IHAH). Den service med et rammende fire-bogstavs forkortelse, for en service, der tilbydes på Hortonworks’ fjerde offentlige cloud, vil kombinere HDP, IBM ‘ s Db2 Stor SQL og IBM Data Videnskab Oplevelse, en AI-orienterede tilbud.

Læs også: IBM ‘ s Watson Data Platform har til formål at blive data videnskab operativsystem

Hadoop er i hus
Hadoop er blevet et fyord, af en slags, i det sidste år, men det bør ikke være så. Mens industrien fokuserer sin hype machine på AI, kerne analytics opgaver stadig er brød og smør af Virksomheden. At bringe Hive op til snus som et interaktivt motor på som BI-værktøjer, som kan udføre disse arbejdsopgaver er en vigtig udvikling-en, der ville blive ignoreret på den observatør, der er i fare. Og modernisere den underliggende platform til at rumme containerization og GPU udførelse viser Hadoop er at holde op med Big Data (og AI) Naboen.

En masse virksomheder, der har foretaget store investeringer i Hadoop. Nu Hortonworks — selskabet dannes fra spin-off af den oprindelige Hadoop udvikling team på Yahoo — er at optimere Hadoop til at hjælpe kunderne med at udnytte bedre afkast på disse investeringer. Der er en markant positiv udvikling, for det Hadoop økosystem, og for de data, verden som helhed.

Relaterede Emner:

Cloud

Digital Transformation

Robotteknologi

Tingenes Internet

Innovation

Virksomhedens Software

0