Hortonworks presenterar färdplan för att göra Hadoop cloud-modersmål

0
133

Noll

hadoop-elephant-cloud.jpg

Det skulle vara en ren underdrift att säga att världen har förändrats sedan Hadoop debuterade för drygt ett decennium sedan. Spola tillbaka bandet till 5 – 10 år sedan, och om du ville arbeta med big data, Hadoop var ganska mycket det enda plattform spelet i stan. Programvara med öppen källkod var grädden på moset av billiga beräkna och lagring infrastruktur som gjorde att lagring och bearbetning av petabyte av data tänkbart.

Sedan dess lagring och beräkna har fortsatt att få billigare. Men så har bandbredd, som 10 GbE-anslutningar har ersatt den 1 GbE-anslutningar som var normen för ett decennium sedan. Molnet, edge design, smarta enheter, och Internet för Saker och ting har förändrats big data landskap, medan alternativ som dedikerad Gnista och AI-tjänster erbjuder alternativ till bränning upp full Hadoop-kluster. Och som vi tidigare noterat, tak av moln lagring har blivit de facto-data sjön.

Idag kan du köra Hadoop i molnet, men Hadoop är för närvarande inte en plattform som till fullo utnyttjar den kapacitet i molnet. Bortsett från stickning i S3 eller andra moln lagring i stället för HDFS, Hadoop inte till fullo dra nytta av molnet arkitektur. Gör Hadoop cloud-personen är inte en fråga om modeord följs, men att göra det mer snabbfotad.

Behovet av Hadoop för att få det är inte helt enkelt tillskrivas konkurrens från andra skräddarsydda big data och molntjänster, men från det oundvikliga i cloud distribution. Förutom moln-baserade Hadoop tjänster från de vanliga misstänkta, uppskattar vi att ca 25% av arbetsbelastning från Hadoop etablerade — Cloudera, Hortonworks, och MapR — är för närvarande körs i molnet. Men viktigast av allt, nästa år räknar vi med att hälften av alla nya stora uppgifter arbetsbelastning kommer att sättas in i molnet.

Så vad är det att arbeta med Hadoop i molnet idag? Ofta kan det ta upp till 20 minuter eller mer för att tillhandahålla ett kluster med alla komponenter. Som flugor mot förhoppning om att kunna skjuta upp en Gnista eller machine learning service inom några minuter — eller mindre. Det är där containerization och microservices komma in — de kan isolera arbetsbelastning eller hela kluster, vilket gör multi-hyresrätt riktigt. Och de kan göra det mycket effektivare att lansera Hadoop arbetsbelastning.

Ett annat centralt begrepp för cloud funktion är att skilja beräkna från lagring. Detta faktiskt går stick i stäv med Hadoop ursprungliga design mönster, där tanken var att beräkna data för att minimera data rörelse. Idag, rören har vuxit fett nog för att göra det nästan en icke-fråga. Som nämnts ovan, separat beräkna och lagring är redan praxis med de flesta managed cloud-baserade Hadoop tjänster, även om det i EMR, Amazon ger möjlighet att köra HDFS.

Vi är fortfarande i början av att göra Hadoop container-vänlig. MapR sköt det första skottet med stöd av ihållande behållare i sin plattform, så att du kan isolera arbetsbelastning för att minska konkurrens om resurser. Hadoop 3.1 i sin tur nu kan du starta Docker behållare av GARN. Men medan Kubernetes kommer oundvikligen att vara på Hadoop färdplan, det finns ingen tidslinje ännu för när det kommer att göra det i bakluckan. Idag, det är till stor del en uppfinna-din-egen erfarenhet.

Hortonworks är att presentera den Öppna Hybrid Arkitektur initiativ för att omvandla Hadoop in i ett moln-native plattform, och som en del av det, har meddelat partnerskap med IBM och Red Hat för att få det att hända.

Steg 1 av initiativ kommer att ta containerization. Få det kommer inte att bli trivial. Det är en sak att acceptera containrar arbetsbelastning, men det är en annan rearchitect alla delar av Hadoop som behållare, både i grupp och på kanten. Och när Apache samhället blir till en kritisk massa i refactoring Hadoop komponenter i behållare, det är behovet av att tillhandahålla migrering vägar till den installerade basen.

Utöver behållare, Hortonworks föreställer sig färdplanen till att omfatta separera beräkna från data. Det är steg 2. Till viss del, som redan de facto-verklighet, som var och en av de stora moln leverantör lyckades Hadoop-tjänster som redan gör det: de använda sina moln objekt lagrar som en slags ersättare för HDFS, och hålla beräkna separerade (även om Amazon erbjuder möjlighet att köra EMR med lokala HDFS lagring). Men anslutningarna, som S3A för att ansluta till S3, är inte optimal, och du kan inte bara byta ut HDFS för objekt lagring om du kör ditt egna privata moln.

Detta steg kommer att dra nytta av arbete på Ozon-projektet, som syftar till att göra HDFS ser ut som ett moln objekt butik. När vi är frestad att säga att Ozon är en idé som har flutit i ozon för en stund, Hortonworks planer på att rampa upp ansträngning i en av de kommande faser av projektet. Det andra elementet är att ändra Api: er för att frikoppla HDFS från beräkna genom nya Api: er, så kunder lokaler fysiskt kan lägga ut sina kluster som privat moln. Dessa bitar kommer inte att falla på plats till nästa år tidigast.

Steg 3 innebär att stöd av Kubernetes. På kort sikt, Hortonworks är att få HDP, HDF, och DataPlane Tjänster (DPS) certifierad på Red hats OpenShift Kubernetes behållare application platform. IBM, som Oem HDP är följande färg med Privata Moln för Data (ICP). Medan OpenShift adresser privata moln, den öppna frågan är stöd från var och en av cloud provider Kubernetes plattformar.

Utöver dessa tre faser, Hortonworks utsikt cloud-native Hadoop som kräver styrning som spänner över molnet(s) och on-premise datacenter. Det är en kryssruta som att det börjar att fylla ut med UP ram. Ett arbete pågår för att DPS är en slags uber katalog av tjänster som gradvis håller på att fyllas med plugins, till exempel Data Förvaltare Studio, Data Lifecycle Manager, och mer nyligen, Strömmar Meddelanden Manager, för att styra replikering, åtkomstkontroll, och dataflöden över molnet och hybrid mål. Det finns också bitar i Atlas, Ranger, och Knox som kommer att behöva anpassas för hybrid-och multi-cloud styrning.

Det kommer att bli många rörliga delar för att göra Hadoop cloud-native. Idag, Hortonworks har presenterat plan, men det finns fortfarande tomma utrymmen för att fyllas, som att baka Kubernetes stöd i Hadoop stammen. Apache gemenskapen ännu inte har begåtts på när det kommer att komma bakas in i stammen. Gör Hadoop moln native kommer att vara en resa.

Relaterade Ämnen:

Cloud

Digital Omvandling

Robotteknik

Sakernas Internet

Innovation

Affärssystem

0