Noll
Det är lite av ett ordspråk i programvaran världen att när en produkt får sin tredje version, är det verkligen träffar sin steglängd. Första versionerna är oftast det som vi nu kallar minimalt gångbar produkt (MVP) släpper, 2.0 släpper vanligtvis lägger tillräckligt med funktionalitet för att hantera några av de mer flagranta v1 smärtpunkter. Men 3,0 varor tenderar ofta att passform och finish, och ofta medföra ett eller två nya viktiga uppsättningar med funktioner.
Så är fallet med version 3.0 av Hortonworks Data Plattform (HDP), meddelade i morse vid Hortonwork är DataWorks Summit i San Jose, CA. HDP 3.0 i sig bygger på version 3.1 av Apache Hadoop, som faktiskt har viktiga nya områden som funktionalitet.
Läs också: Data Fungerar, Hadoop 3.0 är runt hörnet, och “Horton Kläcks Ägget’
Läs också: Hadoop 3 konfronterar verkligheten för lagring tillväxt
Elefanten i behållaren
Den bit som kan ta de mest rubriker är att jobben som sänds till Hadoop GARN resource manager kan nu bestå av hela Docker behållare bilder. Medan GARN har haft sin egen container format för en viss tid, som varit mer om en kod och beroenden förpackning format än en full maskin miljö-format som Hamnarbetare.
Bland andra saker, utskick av Docker bilder innebär att koden, som bygger på vissa versioner av viss programvara (till exempel en specifik version av Python) kan vara säker på att få igång bra, även om utvecklaren har ingen kontroll över eller insikt i, vad som är installerade på Hadoop kluster arbetstagaren noder.
Tänk, Hadoop (och HDP) stöd för Hamnarbetare är inte gjorda för att gå med Hadoop till en generisk högpresterande miljö för exekvering av godtycklig kod. Inte heller Docker stöd innebär Kubernetes behållare orkestrering stöd, åtminstone inte ännu. Istället, Docker stöd försäkrar dynamisk kontroll över runtime-miljöer för typ av jobb Hadoop har alltid körs.
HDP 3.0 innehåller också stöd för Gpu (graphics processing unit) i utförandet av Hadoop jobb där Djupt Lärande och andra AI arbetsbelastning, samt förbättrad säkerhet och styrning förmåga, baserad på Apache Ranger och Atlas projekt.
Kupan 3.0: bee går kolumner
Lika cool som en behållare teknik är idag, Hadoop har alltid handlat om att få jobbet gjort, och en stor del av arbetet har varit runt om sammanläggning/sammanfattning av massiva datamängder. En hel del av detta arbete har varit delegerade till Apache-Kupa, den ursprungliga SQL-på-Hadoop komponent som ingår i de flesta Hadoop-distributioner, inklusive HDP.
Men Kupan ursprungliga beroende av MapReduce och även dess mer de senaste integration med Apache Alican, inklusive LLAP (“Live Long and Process” eller ibland “Låg Latens Analytical Processing”) genomförandet har varit att, med ett ord, långsam. Jämfört med de flesta datalager och OLAP (OnLine Analytical Processing) teknik, Kupan har bara inte kände sig tillräckligt snabbt för att stödja verkligen interaktiva uppgifter prospektering. Och det har lett till konkurrenter, som Gnista SQL och Apache Impala. Det är ofta kändes som magi skulle krävas för att göra Kupan tillräckligt snabbt för Business Intelligence (BI) arbetsbelastning.
Men HDP 3.0 innehåller Kupan 3.0 och senare nu har integration med Apache Druid, en kolumn lagra data access och lagring system inriktade mot BI/OLAP fråga av tidsserier. Nu Kupan användare kan tro på magi, som denna integration ser ut att bli en riktig win-win: Bikupa av en interaktiv kolumn butik BI motor och Druid av en SQL-fråga abstraktion över dess hittills uteslutande JSON + REST API-gränssnitt. Druid också av förmågan att använda Hive för att generera index i stället för att använda MapReduce jobb för den uppgiften.
Druid tabeller i Kupan 3.0 är externa tabeller, så integrering undviker en arkitektur beroende på ineffektivitet av uppgifter om förflyttningar. Kupan kommer också att driva ner så mycket av den fråga som det kan till Druid själv. Och även om vi inte nödvändigtvis behöver mer komplexitet i SQL-på-Hadoop världen, något som gör att Kupan leva upp till sina självutnämnda roll som en Hadoop-baserad data warehouse plattform kan i slutändan få lite enkelhet till Hadoop världen.
Gör si-gör din partner
Utöver den nya HDP release, Hortonworks har en annan 3.0 under sin hatt, i form av tre partnerskap meddelanden — med Microsoft, Google och IBM-alla av dem cloud-fokuserad.
Låt oss börja med Microsoft, företaget som oftast nämns i referens till version 3 effekt. De två företagen är att främja tillgången på Hortonworks ” tre distributioner: HDP, HDF (Hortonwork Dataflöde) och DPS (Hortonworks DataPlane Service) på Microsofts Azure IaaS (Infrastructure as a Service) erbjuder.
Läs också: Hortonworks introducerar Dataflöde, förvärvar Apache NiFi-backer Onyara
Läs också: Hortonworks lägger GUI för strömmande data, “Flex-Support” för hybridmoln
Detta är något krånglig, med tanke på HDInsight, Microsofts PaaS (Platform as a Service) Hadoop erbjuder är faktiskt en HDP derivat. I slutändan innebär det att Hortonworks ” moln go-to-market initiativ kommer att baseras runt sin egen första part distributioner och Microsoft får tout kundens val.
På tal om val, medan de ovan nämnda tillkännagivandet innebär att HDP, HPF och UP är nu tillgänglig på Azure samt Amazon Web Services (AWS), onboarding till Google Cloud Platform (GCP) är i Hortonworks bästa intresse, speciellt med tanke på de “tre” – tema. Och att mycket onboarding är att vara meddelat med Hortonworks idag, med tillgången på HDP och HDF på GCP. Integrationen kommer att omfatta mer än bara tillgången på Hortonwork teknik men: det ingår också att infödda tillgång till Google Cloud Lagring från Hadoop jobb på HDP, som ansluter sig till liknande stöd för Amazon Simple Storage Service (S3) och Azure Blob Storage.
Den tredje och sista tillkännagivandet innebär en mer tre-bokstavs förkortning: IBM. Stora Blå är att tillkännage, i sin egen blogg inlägg, en helt ny tjänst, som kallas IBM Värd Analytics med Hortonworks (IHAH). Tjänsten med en passande fyra bokstäver akronym, för en tjänst som tillhandahålls på Hortonworks ” fjärde offentliga moln, kommer att kombinera HDP, IBM Db2 Stora oracle och IBM Data Vetenskap Erfarenhet, en AI-orienterade erbjuder.
Läs också: IBM: s Watson Data Plattform syftar till att bli data vetenskap operativsystem
Hadoop är i huset
Hadoop har varit ett fult ord, av slag, i förra året, men det borde inte vara så. Samtidigt som industrin fokuserar sin hype machine på AI, core analytics uppgifter är fortfarande bröd och smör av Företaget. Att föra Kupa upp till snus som en interaktiv motorn som BI-verktyg som kan utföra dessa arbetsbelastning är en viktig utveckling-en som skulle ignoreras på observatörens fara. Och modernisera den underliggande plattform för att rymma containerization och GPU utförande visar Hadoop är att hänga med Big Data (och AI) Joneses.
Många företag har gjort stora investeringar i Hadoop. Nu Hortonworks — bolaget bildas från spin-off av den ursprungliga Hadoop team på Yahoo — är att optimera Hadoop för att hjälpa kunderna att utnyttja bättre avkastning på dessa investeringar. Det är en signifikant positiv utveckling, för Hadoop ekosystem, och för de uppgifter som världen generellt.
Relaterade Ämnen:
Cloud
Digital Omvandling
Robotteknik
Sakernas Internet
Innovation
Affärssystem
0