DANSK

Hortonworks afslører køreplan for at gøre Hadoop cloud-hjemmehørende

Nul

Det ville være ren underdrivelse at sige, at verden har ændret sig siden Hadoop debuterede for lidt over et årti siden. Spole båndet til 5 – 10 år siden, og hvis du ønsker at arbejde med big data, Hadoop var stort set den eneste platform spil i byen. Open source-software blev prikken over i ‘ et for billige beregne og storage infrastruktur, der gjorde, behandling og lagring af petabytes af data tænkelige.

Siden da, opbevaring og beregne har fortsat med at få billigere. Men så har båndbredde, som 10 GbE-forbindelser har fortrængt den 1 GbE-forbindelser, der var normen for et årti siden. Den sky, edge design, smart-enheder, og Internet af Ting har ændret big data liggende, mens alternativer såsom særlige Gnist og AI-tjenester tilbyder alternativer til at fyre op for fuld Hadoop klynger. Og som vi tidligere bemærkede, at begrænse det ud, cloud storage er blevet de facto data søen.

I dag kan du køre Hadoop i skyen, men Hadoop er i øjeblikket ikke en platform, der fuldt ud udnytter mulighederne i skyen. Bortset fra slotting i S3 eller andre cloud storage i stedet for HDFS, Hadoop ikke fuldt ud at drage fordel af cloud-arkitektur. Gør Hadoop cloud-indfødte er ikke et spørgsmål om buzzword overensstemmelse, men at gøre det mere flåde-footed.

Behovet for Hadoop at få der er ikke blot tilskrives konkurrencen fra andre skræddersyede big data, cloud-tjenester, men fra det uundgåelige af cloud-implementering. I tillæg til cloud-baseret Hadoop-tjenester fra den sædvanlige mistænkte, vi anslår, at omkring 25% af arbejdsbelastningen fra Hadoop etablerede — Cloudera, Hortonworks, og MapR — i øjeblikket kører i skyen. Men hvad vigtigere er, ved næste år, kan vi forudsige, at halvdelen af alle nye big data arbejdsbyrde vil blive indsat i skyen.

Så hvad er det at arbejde med Hadoop i skyen i dag? Det kan ofte tage op til 20 minutter eller mere til bestemmelse af en klynge med alle komponenter. Der flyver mod forventning af at være i stand til at fyre op for en Gnist eller machine learning service inden for få minutter-eller mindre. Det er der, hvor containerization og microservices kommer i, — de kan isolere arbejdspres eller hele grupper, hvilket gør multi-lejemål fast. Og de kan gøre det langt mere effektivt at lancere Hadoop arbejdsmængder.

Et andet centralt begreb for cloud-drift er at adskille beregne fra lager. Dette faktisk flyver i lyset af Hadoop ‘ s oprindelige design mønster, hvor idéen var at bringe beregne til data for at minimere data bevægelse. I dag, rørene er vokset fedt nok at gøre, der næsten er ikkeeksisterende. Som nævnt ovenfor, separat beregning og lagring er allerede almindelig praksis med de fleste managed cloud-baseret Hadoop-tjenester, selv om i EMR, Amazon giver mulighed for at køre HDFS.

Vi er stadig i de tidlige dage af at gøre Hadoop container-venligt. MapR affyrede det første skud med sin støtte til vedvarende beholdere i sin platform, så du har mulighed for at isolere arbejdsbyrde at reducere påstand om ressourcer. Hadoop 3.1 gengæld kan du nu starte Docker beholdere fra GARN. Men mens Kubernetes vil uundgåeligt være på Hadoop er køreplanen, der er ingen tidslinje endnu, da det vil gøre det i stammen. I dag, er det stort set en opfinder-din-egen erfaring.

Hortonworks er afsløringen af den Åbne Hybrid Arkitektur initiativ til at omdanne Hadoop til en cloud-native-platformen, og som en del af det, har annonceret partnerskaber med IBM og Red Hat for at gøre det ske.

Trin 1 af initiativet adresse containerization. Kom der vil ikke være triviel. Det er én ting at acceptere containertransport arbejdspres, men det er en anden til at rearchitect alle komponenter i Hadoop, som containere, både på klyngen og på kanten. Og når Apache samfund bliver til en kritisk masse i refactoring Hadoop komponenter i beholdere, der er nødt til at give migration veje til den installerede base.

Ud over beholdere, Hortonworks forestiller sig køreplanen til at omfatte adskille beregne ud fra data. Det er trin 2. Til en vis grad, det er allerede de facto virkelighed, som hver af de store cloud-udbyder, der forvaltes af Hadoop-tjenester allerede gør det: de bruger deres sky objekt butikker, som i form af erstatninger for HDFS, og holde beregne adskilt (selv om Amazon giver mulighed for at køre EMR med lokale HDFS opbevaring). Men forbindelser, som S3A for tilslutning til S3, er ikke optimal, og du kan ikke bare bytte HDFS for objekt opbevaring hvis du kører din egen private sky.

Dette trin vil udnytte arbejde på Ozon-projekt, som har til formål at gøre HDFS ligne en sky objekt butik. Mens vi er fristet til at sige, at Ozon er en idé, der har flydt i ozonlaget i et stykke tid, Hortonworks planer om at intensivere den indsats, i en af de næste faser af projektet. Det andet element er at ændre Api ‘er til at afkoble HDFS fra compute gennem nye Api’ er, så på lokaler kunder fysisk kan lægge deres klynger som private skyer. Disse stykker vil ikke falde på plads til næste år, tidligst.

Trin 3 omfatter støtte af Kubernetes. På kort sigt, Hortonworks er at få HDP, HDF, og DataPlane Tjenester (DPS) certificeret på Red Hat ‘ s OpenShift Kubernetes container application platform. IBM, som Oem ‘ er, HDP, følger trop med Privat Cloud til Data (ICP). Mens OpenShift adresser private cloud, det åbne spørgsmål er støtte fra hver af de cloud-udbyder Kubernetes platforme.

Ud over disse tre faser, Hortonworks udsigt cloud-native Hadoop, som kræver styring, der spænder på tværs af cloud(s) og on-premise datacentre. Der er et afkrydsningsfelt, at det er begyndt at fylde ud med DPS ramme. Et arbejde i gang, DPS er en slags uber katalog af tjenester, der er gradvist ved at blive befolket med plugins, såsom Data Steward Studio, Data Lifecycle Manager, og mere for nylig, Vandløb Beskeder Manager, for replikation, adgangskontrol, og data, der flyder på tværs af cloud-og hybrid-mål. Der er også stykker i Atlas, Ranger, og Knox, der bliver nødt til at være tilpasset til hybrid-og multi-cloud styring.

Der vil være mange bevægelige dele til at gøre Hadoop cloud-indfødte. I dag, Hortonworks har løftet sløret for den plan, men der er stadig tomme pladser skal udfyldes, lyst til at bage Kubernetes støtte i Hadoop kuffert. Apache fællesskabet har endnu ikke forpligtet sig på, når det bliver bagt ind i stammen. Gør Hadoop cloud indfødte vil være en rejse.

Relaterede Emner:

Cloud

Digital Transformation

Robotteknologi

Tingenes Internet

Innovation

Virksomhedens Software