Hortonworks Data Platform draait 3.0; het nieuwe cloud samenwerkingsverbanden aangekondigd

0
182

Nul

Het is een beetje een gezegde in de software-wereld, dat wanneer een product krijgt om de derde versie, het is echt raakt de pas. De eerste versies zijn meestal wat we nu noemen een minimaal levensvatbare product (MVP) releases, 2.0 releases meestal genoeg functionaliteit om een aantal van de meer ernstige aard v1 pijn punten. Maar de 3.0 goederen hebben vaak de neiging om de pasvorm en afwerking, en vaak breng één of twee belangrijke nieuwe functie stelt.

Dit is het geval met versie 3.0 van Hortonworks Data Platform (HDP), kondigde deze ochtend Hortonwork de DataWorks Summit in San Jose, CA. HDP 3.0 is zelf gebaseerd op versie 3.1 van Apache Hadoop, die inderdaad zijn belangrijke nieuwe gebieden van functionaliteit.

Lees ook: Gegevens Werkt, Hadoop 3.0 is om de hoek, en ‘Horton Luiken het Ei’
Lees ook: Hadoop 3 confronteert de realiteit van opslag groei

De olifant in de container
De bit die kan grijpen de meeste koppen is dat de werkgelegenheid verzonden naar Hadoop s GAREN resource manager kan nu bestaan uit hele Docker container beelden. Tijdens het GAREN heeft zijn eigen container formaat voor bepaalde tijd, dat is al meer over een code en afhankelijkheden verpakking formaat dan een volledige machine milieu-formaat als Dokwerker.

Onder andere dingen, verzending van de Docker beelden betekent dat de code die is gebaseerd op bepaalde versies van bepaalde software (bijvoorbeeld een specifieke versie van Python) kan worden verzekerd van goed lopen, zelfs als de ontwikkelaar heeft geen controle over, en inzicht in, wat is geïnstalleerd op de Hadoop-cluster werkprocessen knooppunten.

Houd in gedachten, Hadoop (en HDP ‘ s) ondersteuning voor de Docker is niet ontworpen om Hadoop in een generieke high-performance-omgeving voor het uitvoeren van willekeurige code. Noch Docker ondersteuning impliceert Kubernetes container orchestration ondersteuning, tenminste nog niet. In plaats daarvan, Koppelvenster ondersteuning verzekert dynamische controle over runtime-omgevingen, voor de aard van de taken Hadoop heeft altijd uitvoeren.

HDP 3.0 bevat ook ondersteuning voor Gpu (graphics processing units) in de uitvoering van Hadoop jobs met Diep Leren en andere AI-workloads, evenals verbeterde veiligheid en mogelijkheden voor governance, gebaseerd op de Apache Ranger en Atlas projecten.

Hive 3.0: De honingbij gaat in kolomvorm
Zo cool als container-technologie is vandaag de dag, Hadoop is altijd al over om werk gedaan te krijgen, en veel van dat werk is al aggregatie/samenvatting van enorme gegevenssets. Veel van dat werk is gedelegeerd aan Apache Component, de oorspronkelijke SQL-op-Hadoop onderdeel in de meeste Hadoop uitkeringen, met inbegrip van HDP.

Maar Hive initiële vertrouwen op MapReduce en zelfs de meer recente integratie met Apache Tez, met inbegrip van de LLAP (“Live Long and Process” of, soms, “Low Latency Analytical Processing”) de uitvoering, is, in een woord, traag. In vergelijking met de meeste datawarehouse-en OLAP (OnLine Analytical Processing) technologie, Bijenkorf net niet gevoeld snel genoeg is om echt interactieve data-exploratie. En dat heeft veroorzaakt concurrenten, zoals Vonk SQL en Apache Impala. Het is vaak gevoeld als bij toverslag zou moeten maken Hive snel genoeg voor Business Intelligence (BI) – workloads.

Maar HDP 3.0 bevat Hive 3.0 en de laatste nu biedt integratie met Apache Druid, een kolom store toegang tot gegevens en de opslag systeem gericht op de BI/OLAP-het opvragen van tijdreeksen. Nu Hive gebruikers kunnen geloven in magie, zoals deze integratie lijkt een echte win-win: Hive krijgt een interactieve kolom winkel BI-motor en Druid winsten van een SQL-query abstractie over de tot nu toe uitsluitend JSON + REST-API interface. Druid krijgt ook de mogelijkheid om het gebruik van Component voor het genereren van indexen in plaats van gebruik te maken van MapReduce banen voor die taak.

Druid tabellen in de Component 3.0 externe tabellen, zodat de integratie voorkomt een architectuur afhankelijk van de inefficiënties van data verkeer. Hive zal ook naar beneden duwen als veel van de query als Druid zelf. En hoewel we niet per se nodig meer complexiteit in de SQL-op-Hadoop wereld, iets dat maakt Hive live zijn zelfverklaarde rol van een Hadoop-gebaseerde data warehouse platform uiteindelijk zou kunnen brengen sommige eenvoud aan de Hadoop wereld.

Do-si-do van uw partner
Buiten de nieuwe HDP release, Hortonworks heeft een ander 3.0 onder de hoed, in de vorm van drie partnerschappen aankondigingen — met Microsoft, Google en IBM — alle van hen cloud-gericht.

Laten we beginnen met Microsoft, het bedrijf vaak worden genoemd in verwijzing naar de versie 3 effect. De twee bedrijven zijn het bevorderen van de beschikbaarheid van Hortonworks’ drie uitkeringen: HDP, HDF (Hortonwork DataFlow) en DPS (Hortonworks DataPlane Service) op Microsoft ‘ s Azure IaaS (Infrastructure as a Service) biedt.

Lees ook: Hortonworks introduceert DataFlow, verwerft Apache NiFi-backer Onyara
Lees ook: Hortonworks voegt GUI voor het streamen van gegevens, de “Flex Support” voor hybride cloud

Dit is enigszins contra-intuïtief, gegeven HDInsight, Microsoft ‘ s PaaS (Platform as a Service) Hadoop biedt is eigenlijk een HDP afgeleide. Uiteindelijk betekent dit dat Hortonworks’ cloud ‘ go-to-market initiatieven zal gebaseerd zijn op zijn eigen first-party uitkeringen en Microsoft krijgt het aan de tout keuze van de klant.

Het spreken van de keuze, terwijl de bovenstaande aankondiging betekent dat HDP, HPF en DPS zijn nu beschikbaar op Azure en Amazon Web Services (AWS), onboarding naar de Google Cloud Platform (GCP) is in Hortonworks beste belang is, vooral gezien de “drie” – thema. En dat zeer on-boarding wordt aangekondigd door Hortonworks vandaag, met de beschikbaarheid van HDP en HDF aan GCP. De integratie zal omvatten meer dan alleen de beschikbaarheid van Hortonwork de technologie wel op: het bevat ook inheemse toegang tot de Google-Cloud-Opslag van Hadoop banen op HDP, die aansluit op een soortgelijke ondersteuning voor Amazon Simple Storage Service (S3) en Azure Blob Storage.

De derde en laatste aankondiging gaat nog een drie-letter afkorting: IBM. Big Blue is de aankondiging op zijn eigen blog post, een nieuwe dienst, genaamd IBM Gehost Analytics met Hortonworks (IHAH). De dienst met een passend vier-letter afkorting, voor een dienst die wordt aangeboden op Hortonworks’ vierde public cloud, combineren HDP, IBM ‘ s Db2 Grote SQL en de IBM Data Science Ervaring, een AI-gericht aanbod.

Lees ook: IBM ‘ s Watson Data Platform beoogt om data science besturingssysteem

Hadoop is in het huis
Hadoop is een vies woord, van allerlei soort, in het laatste jaar, maar het moet niet zo worden. Terwijl de industrie richt zich met haar hype machine op AI, core analytics taken zijn nog steeds het brood en de boter van de Onderneming. Het brengen van Hive snuif als een interactieve motor op die BI-hulpprogramma ‘ s kunt uitvoeren die workloads is een belangrijke ontwikkeling, — zou worden genegeerd bij de waarnemer gevaar. En de modernisering van het onderliggende platform geschikt voor containervervoer en GPU uitvoering geeft Hadoop tred te houden met de Big Data (AI) Joneses.

Veel bedrijven hebben grote investeringen in Hadoop. Nu Hortonworks — het bedrijf dat is ontstaan uit de spin-off van de originele Hadoop development team in Yahoo — is het optimaliseren van Hadoop te helpen klanten leverage een beter rendement op deze investeringen. Dat is een zeer positieve ontwikkeling, voor het Hadoop ecosysteem, en voor de gegevens die wereld in het algemeen.

Verwante Onderwerpen:

Cloud

Digitale Transformatie

Robotica

Het Internet van Dingen

Innovatie

Enterprise Software

0