Cloudera Machine Learning release duurt cloud-eigen pad

0
126

Nul

cloudera.png

Op de hielen van de laatste kwartaalverslag voor de verwachte afronding van de fusie met Hortonworks, Cloudera heeft aangekondigd de mogelijkheid om een preview van een nieuwe cloud-inheemse tegenhanger voor de Cloudera Data Science Werkbank (DSW) dat gaat full tilt op Kubernetes. Aanzienlijk, het draagt een andere branding — Cloudera Machine Learning (Cloudera ML).

De architectuur en de branding weerspiegelen twee verschuivingen in de markt. De eerste is de overgang naar de cloud. Terwijl we schatten dat slechts ongeveer 25 – 30% van Cloudera ‘ s installed base wordt uitgevoerd workloads in de cloud, de snelheid in de richting van cloud adoptie is onmiskenbaar. Ovum voorspelt dat er volgend jaar, de helft van de nieuwe big data-workloads zal worden uitgevoerd op de cloud. En die bepaalt het ondersteunen van het type autoscaling dat is mogelijk in de cloud.

De tweede trend is de AI, of meer specifiek machine learning. Als Cloudera in eerste instantie uitgebracht DSW, de dupe van de activiteit is het bouwen van meer op het bouwen van conventionele data science modellen die zijn statisch – ze zijn geïmplementeerd, en vervolgens eventuele wijzigingen in de modellen zijn gedaan door mensen.

Vandaag, om te zeggen dat er interesse is in AI (meestal de machine learning vorm) zou een understatement zijn. Het verplaatsen van de vaststelling van AI weerspiegelt het feit dat modellen, frameworks, en het berekenen van zijn toegankelijker dan ooit – dankzij op zowel dedicated cloud-diensten en de beschikbaarheid van de GPU-middelen die via de cloud niet dwingen ondernemingen te blazen hun komende drie jaar van het kapitaal budgetten voor AI berekenen.

En, gegeven de beschikbaarheid van specifieke diensten zoals Databricks (voor Spark workloads), en Amazon SageMaker, Azure Machine Learning, en Google Cloud AutoML, er zijn alternatieven voor Hadoop voor het uitvoeren van machine learning workloads.

U kunt wel gebruik maken van DSW voor AI problemen, maar de uitdaging is om in economisch beheer van berekenen. Dus, Cloudera aangepast DSW aanbieden met een extra: Cloudera ML. Het speelt in op deze trends met een nieuwe Kubernetes-architectuur op basis van die omzeilt GAREN planning van on-premise Hadoop-clusters. Om duidelijk te zijn, dit is geen vervanging van de bestaande DSW die draait op Hadoop en GAREN, maar het geeft een andere versie die werkt in Kubernetes omgevingen.

Dit is niet de eerste keer dat Cloudera heeft ondersteund containers voor data science of ML werkbelasting; door het gebruik van containers, Cloudera kan het pakket de onderlinge afhankelijkheden die nodig zijn voor de fysieke implementatie. Maar gezien het feit dat de oorspronkelijke DSW was gericht op Cloudera Enterprise-klanten met Hadoop-clusters, het liep Vonk werkbelasting onder GAREN te passen in dezelfde implementatie.

De cloud is een ander verhaal. Ten eerste, de gegevens lake is meestal in de cloud object stores, niet HDFS. Ten tweede, Cloudera CDH (het gebruik van GAREN) biedt geen ondersteuning voor out-of-the-box autoscaling — de mogelijkheid om de helling omhoog en omlaag berekenen van de capaciteit, omdat het is ontworpen om te functioneren op de clusters waar de gegevens en berekent u op dezelfde knooppunten. Met Kubernetes de de facto standaard voor cloud native berekenen (zelfs AWS, die had zijn eigen container management services, heeft een beetje de kogel en begonnen met het aanbieden van een beheerd Kubernetes service), de teerling was geworpen voor Cloudera. Als het de wens om klanten te ondersteunen in de cloud, DSW of zijn opvolger zou moeten omarmen Kubernetes, niet GAREN.

Cloudera ML is nu in beperkte eigen voorbeeld, het ondersteunen van de toegang tot gegevens in de cloud object stores, HDFS en externe databases, met implementatie in de public cloud, of, uiteindelijk op het terrein (in private clouds) via OpenShift.

Bredere vragen

Terwijl Cloudera ML is het bedrijf de eerste release van een 100% Kubernetes-product dat gebaseerd is op, we zien dit niet als een geïsoleerde uitstapje of uitschieters. In de achtergrond, de Apache Hadoop community is begonnen met de ontkoppeling van Hadoop van HDFS dus dat cloud object storage zal ook een eerste-rangs burger. Met Hadoop niet langer de enige plaats voor het uitvoeren van big data, of specifiek ML workloads, we zouden niet verbaasd zijn als op een bepaald punt, Cloudera ontketent Cloudera ML voor het draaien op eventuele Kubernetes cluster, op het terrein of in de public cloud.

En dat is waar een aantal bredere vragen komen binnen.

Duidelijk, Cloudera zal doorgaan met het ondersteunen van on-premise, dat is de kern van haar huidige ‘installed base’. Als een lokale leverancier die is uitbreiding naar de cloud zal steeds onderscheid zich door de ondersteuning van de hybride. Maar de ondersteuning van hybride betekent het toevoegen van cloud-native opties, net zoals ze dat nu doen door het vergroten van de DSW product lijn met Cloudera ML. Dus, wat over een andere werkbelasting als data-engineering of datawarehousing? In de cloud, die kan ook profiteren van het lopen op Kubernetes clusters.

En dat eens te meer leidt tot de eeuwige vraag: wat maakt dat Hadoop, Hadoop. Herinner u dat er pogingen aan de gang om de Hadoop-platform meer cloud-vriendelijk, van de ontkoppeling van de opslag naar de opvang container-workloads. Dit zijn de lange-termijn initiatieven aan de gang in de Apache community. Dus, als je eenmaal verdringen HDFS met cloud object storage, en MapReduce met Vonk, wat ben je links? Dat is waar bestuur, het beheer en de ondersteuning van meerdere vormen van werkbelasting wordt een onderscheid gemaakt Hadoop van big data point services. Of de middelen worden bepaald door GAREN of Kubernetes een academische vraag. Het is zelfs niet 2019 nog niet, maar we maken nog steeds deze voorspelling: In de toekomst, de aard van Hadoop uitgevoerd worden op basis van hoe je het in kunt zetten.

Verwante Onderwerpen:

Cloud

Digitale Transformatie

Robotica

Het Internet van Dingen

Innovatie

Enterprise Software

0