Apache Vonk stelt om te standaardiseren verdeeld machine learning-training, uitvoering en implementatie

0
115

Nul

We noemden het Machine Learning oktober Fest. Vorige week zag het bijna gesynchroniseerd uitbraak van een aantal van nieuws rondom machine learning (ML): De release van PyTorch 1.0 beta van Facebook, snel.ai, Neuton, Infer.NET en MLFlow.

Niet toevallig, vorige week was ook de tijd toen Vonk en AI Top van Europa plaats vond. De Europese versie van Apache Spark top. De titel van dit jaar is uitgebreid met AI, het aantrekken van een veel aandacht in de ML gemeenschap. Blijkbaar, het werkt ook als een datum rond die ML aankondigingen gepland.

Ook: Het verleden, het heden en de toekomst van streaming: Flink, Vonk en de bende

MLFlow is Databricks’ eigen creatie. Databricks is de commerciële entiteit achter Apache Spark, dus met MLFlow de nieuwe editie aangekondigd in Databricks CTO Matei Zaharia de keynote werd verwacht. ZDNet sprak met Zaharia te bespreken alles van goedkeuring patronen en use cases voor de concurrentie, programmeertalen, en de toekomst van machine learning.

Unified analytics

image-2018-10-12-at-10-32-25-am.jpg
Matei Zaharia

Databricks’ motto is: “unified analytics.” Als Databricks CEO Ali Ghodsi opgemerkt in zijn keynote, het doel is te verenigen gegevens, techniek en mensen, het neerhalen van technologie en organisatie-silo ‘ s. Dit is een brede visie, en Databricks is niet de eerste over te gaan op deze reis.

Richten op de technologie een deel van het samenbrengen van gegevens engineering en data science. Als Zaharia opgemerkt, begint iedereen met gegevens engineering:

“In ongeveer 80 procent van de use cases, de mensen einddoel is om te doen data science of machine learning. Maar om dit te doen, je nodig hebt om een pijpleiding die op betrouwbare wijze kan het verzamelen van gegevens over de tijd.

Beide zijn belangrijk, maar je moet de data-engineering te doen de rest. We richten ons op gebruikers met grote volumes, die meer uitdagende. Als u Vonk te doen gedistribueerde verwerking, het betekent dat je veel data.”

Ook: Eigenwijs en open machine learning: De nuances van het gebruik van Facebook ‘ s PyTorch

Vaak is dat niet, het betekent ook dat uw gegevens is afkomstig van een aantal bronnen. Vonk, evenals Delta, Databricks’ eigen cloud-platform gebouwd op Vonk, al ondersteuning voor het lezen van en schrijven naar een aantal gegevensbronnen. De mogelijkheid tot het gebruik van Vonk als een verwerking hub voor verschillende data-bronnen is de sleutel tot het succes.

mlflow.jpg
De motivatie voor de invoering van MLFlow. (Afbeelding: Mani Parkhe en Tomas Nykodym / Databricks)

Nu, Databricks wil een stap verder, door het verenigen van verschillende machine learning kaders van het lab naar de productie via MLFlow, en de opbouw van een gemeenschappelijk kader voor de gegevens en de uitvoering via het Project Waterstof.

MLFlow ‘ s doel is om te helpen bijhouden van experimenten, delen en hergebruiken van projecten, en productionize modellen. Het kan worden gezien als een combinatie van gegevens wetenschap notebooks uitgebreid met functies zoals de geschiedenis die zijn gevonden in de code versiebeheer systemen zoals Git, met afhankelijkheid van beheer en implementatie van functies die te vinden zijn in de wil van Maven en Gradle.

MLFlow werd aangekondigd in juni, en het heeft al ongeveer 50 medewerkers van een aantal organisaties ook te gebruiken in de productie. Zaharia zei dat ze op de goede weg zijn met MLFlow, en op dit punt, het doel is om veel feedback en het verbeteren van MLFlow totdat ze er gelukkig mee zijn.

Naast de mogelijkheid om te implementeren ML modellen Spark en Delta, MLFlow kunt ze ook exporteren als REST-services worden uitgevoerd op elk platform, of op Kubernetes via Docker containervervoer. Cloud-omgevingen worden ook ondersteund, momenteel AWS SageMaker en Azure ML, gebruik te maken van geavanceerde mogelijkheden zoals A/B-tests die worden aangeboden door deze platforms.

Ook: Neuton: Een nieuwe, verstorende neurale netwerk kader voor AI-toepassingen

Zaharia opgemerkt dat het doel is om ervoor te zorgen modellen kunnen worden verpakt toepassingen, bijvoorbeeld voor mobiele toepassingen. Er zijn verschillende manieren om dit te doen, voegde hij eraan toe, zoals het exporteren van het model als een Java-klasse, maar niet op een standaard manier, en dit is een kloof MLFlow gericht aan te pakken.

De toekomst van machine learning is verdeeld

Als u vertrouwd bent met de ML-model implementatie, mag u weet over het PMML en PFA. PMML en PFA zijn de bestaande normen voor verpakking ML modellen voor implementatie. Het bespreken van differentiatie met deze was de verbinding met het andere initiatief Databricks werkt: Project Waterstof.

Project Waterstof ‘ s doel is het verenigen van state-of-the-art AI en big data in Apache Vonk. In de praktijk betekent dit unifying-gegevens en uitvoering; het aanbieden van een manier voor de verschillende ML-kaders voor het uitwisselen van gegevens en het standaardiseren van de opleiding en de inferentie-proces.

Voor de gegevens deel, Project Waterstof bouwt voort op Apache Pijl. Apache Pijl is een gemeenschappelijke inspanning te vertegenwoordigen big data in het geheugen voor maximale prestaties en interoperabiliteit. Zaharia opgemerkt dat het ondersteunt al een aantal typen gegevens, en kan uitgebreid worden naar meer: “We beter kunnen doen.”

Ook: de verwerkingstijd serie gegevens: Wat zijn de opties?

Dus, waarom niet hergebruiken PMML/PFA voor de uitvoering? Twee woorden, volgens Zaharia: Verspreid training. Zaharia merkte op dat, hoewel PMML / PFA zijn gericht op verpakking modellen voor de implementatie, en er is een integratie met deze beide beperkingen hebben. In feite, voegde hij eraan toe, is er geen standaard model serialisatie formaat die eigenlijk snijdt het recht nu:

“ONNX is een nieuwe. Mensen praten ook over Tensorflow grafieken, maar geen van hen heeft betrekking op alles. Tensorflow grafieken niet dingen zoals random forest. PMML dekt niet diep leren heel goed.

In MLFlow, we bekijken deze via een eenvoudige interface, zoals ‘mijn model is een functie met een aantal bibliotheken ik moet installeren.’ Zo ,hoeven we ons geen zorgen over hoe het model kiest voor het opslaan van de bits, maar over wat wij moeten installeren.

Wij kunnen u ondersteunen verdeeld training via iets als MPI. Dit is een zeer standaard manier om te bouwen van High Performance Computing (HPC) banen. Het is al rond voor 20 jaar, en het werkt!”

Deze auteur kan getuigen van zowel de aanspraken, zoals MPI was wat we doen HPC onderzoek precies 20 jaar geleden. Zaharia ging op aan toevoegen dat waar mogelijk ze willen hergebruiken van bestaande communautaire bijdragen, onder vermelding van bijvoorbeeld Horovod, een open-source framework voor gedistribueerde ML gebouwd door Uber.

Zaharia opgemerkt dat Horovod is een meer efficiënte manier om te communiceren in omgevingen met diep leren met behulp van MPI, en het werkt met Tensorflow en PyTorch: “om dit Te gebruiken, moet u het uitvoeren van een MPI taak en voer deze gegevens in, en je hebt om na te denken hoe partitie van de gegevens.”

Ook: 10 manieren AI impact zullen hebben op de onderneming in 2018 TechRepublic

Soumith Chintala, PyTorch project leiden, lijkt te delen Zaharia ‘ s ideeën over verdeeld opleiding wordt de volgende grote ding in de diepe leren, het is geïntroduceerd in de nieuwste versie van PyTorch. Voor de stand van de techniek in deze, kunt u ook kijken Jim Dowling van Logische Klokken AB praten over Verdeeld Diep Leren met Apache Vonk en TensorFlow in de Spark en AI-Top (boven).

Programmeertalen, transacties en adoptie

Het deel waar Zaharia vermeld exporteren ML modellen als Java klassen was een goede gelegenheid om te bespreken programmeertaal steun en goedkeuring patronen op Vonk. Samengevat Zaharia de observaties zijn in lijn met het sentiment in de gemeenschap:

“Ik denk dat we meestal zien, Python, R, en Java in gegevens wetenschap en machine learning projecten, en dan is er een drop-off.

In MLFlow we begonnen met slechts Python, en toegevoegd Java, Scala, en R. Gebruik verschilt per use case, dat is waarom we proberen om de ondersteuning zo veel mogelijk. De meest voorkomende, vooral bij de nieuwe ML-projecten heeft de neiging om te worden Python, maar er zijn vele domeinen waar R heeft geweldige bibliotheken en mensen gebruiken het. In andere domeinen, in het bijzonder voor grootschalige implementaties, mensen maken gebruik van Java of Scala.”

Dit was ook een goede gelegenheid om te bespreken Apache Bundel. Beam is een project dat is gericht op abstracte streaming verwerking via een platform-agnostisch API, zodat het draagbaar. Beam heeft onlangs een mechanisme voor de ondersteuning van het programmeren in andere talen naast de moedertaal Java, en het is wat Apache Flink, een belangrijke concurrent voor de Spark, gebruikt voor het toevoegen van ondersteuning voor Python.

Laatste keer dat we spraken, Databricks was niet geïnteresseerd in wijden middelen ter ondersteuning van die Bundel, dus vroegen we ons af of de mogelijkheid van het toevoegen van ondersteuning voor meerdere programmeertalen via de Balk kon dat veranderen. Niet echt, zo blijkt.

Zaharia onderhouden de beste manier om dit te doen streaming op Vonk is te gebruiken Vonk gestructureerde streaming direct, hoewel een derde partij integratie met de Bundel bestaat. Maar dat deed hij erkent dat de mogelijkheid van ondersteuning van vele verschillende talen via de Bundel is interessant.

Ook: AI betekent een levensduur van training CNET

Ook hij voegde er echter aan toe dat, in tegenstelling tot Spark, waar extra taal ondersteuning werd gedaan, a posteriori, in MLFlow, REST-ondersteuning maakt het mogelijk mensen bij het maken van een pakket voor het voorbeeld met Julia nu, als ze dat willen.

data61-blockchain-distributed-ledger.jpg
Distributie is de next big thing’, voor machinaal leren, als het kan bieden dramatische speedup. Maar het is nog vroeg, en de verdeling is moeilijk.

Zaharia ook commentaar op de inleiding van ZUUR door Apache Flink, en wat dit betekent voor de Spark, vooral in de weergave van gegevens Ambachtslieden’ octrooi. Zaharia was verbaasd naar wat precies kan worden gepatenteerd. Hij merkte op dat de streaming-die werkte met Postgres, bijvoorbeeld, is al sinds de vroege jaren 2000, en precies één keer semantiek is ondersteund door Spark streaming sinds de eerste release:

“Wanneer Vonk vertelt over precies één keer, dat is transactional. Delta ondersteunt ook transacties met een verscheidenheid van systemen, zoals Bijenkorf of HDFS. Misschien is het octrooi heeft betrekking op een specifiek patroon of opslag formaat. Maar in ieder geval transacties van belang zijn, dit is van belang bij de productie.”

Ook: Het web als database: De grootste knowledge graph ooit

Als voor Databricks alleen-cloud strategie, Zaharia opgemerkt het werkt heel goed. Soms is. het Vonk van gebruikers te migreren naar de Databricks platform. Andere tijden, het is de line-of-business eisen die dicteren in de cloud eerste benadering, maar in ieder geval, het lijkt Spark heeft een sterk genoeg te staan in een relatief korte tijd. En met Spark blijven innoveren, zijn er geen tekenen van vertraging aan de horizon.

Vorige en aanverwante dekking:

Wat is AI? Alles wat je moet weten

Een executive gids voor kunstmatige intelligentie, van machine learning en algemene AI-neurale netwerken.

Wat is diep leren? Alles wat je moet weten

De lowdown op diep leren: van hoe het zich verhoudt tot het bredere veld van machine-leren door te zien hoe aan de slag met het.

Wat is machine learning? Alles wat je moet weten

In deze gids wordt uitgelegd wat ‘machine learning’ is, hoe het is in verband met kunstmatige intelligentie, hoe het werkt en waarom het belangrijk is.

Wat is cloud computing? Alles wat u moet weten over

Een introductie van cloud computing recht vanaf de basis tot IaaS en PaaS -, hybride -, public en private cloud.

Verwante artikelen:

Er is geen rol voor de AI of data science: dit is een team inspanning Opstarten Verwanten brengt glimp van hoop voor AI AI-robotica: Het uitzicht vanuit de Chief Data Science Office Salesforce intro ‘ s van Einstein Stem, een AI-voice assistant voor ondernemingen is Het niet de banen AI is het vernietigen van dat stoort me, het is degenen die groeien

Verwante Onderwerpen:

Big Data Analytics

Digitale Transformatie

CXO

Het Internet van Dingen

Innovatie

Enterprise Software

0