DANSK

Apache Gnist sætter sig for at standardisere fordelt machine learning uddannelse, udførelse og implementering

164

Nul

Vi kaldte det Machine Learning oktober Fest. I sidste uge så det næsten synkroniseret breakout af en række nyheder, der er centreret omkring machine learning (ML): frigivelse af PyTorch 1.0 beta fra Facebook, hurtigt.ai, Neuton, Infer.NET og MLFlow.

Ikke ved et uheld, i sidste uge var også det tidspunkt, hvor Gnist og AI-Europa-Topmødet fandt sted. Den Europæiske udgave af Apache Gnist ‘ s topmøde. Dens titel dette år er blevet udvidet til at omfatte AI, der tiltrækker en masse opmærksomhed i ML fællesskabet. Tilsyneladende, det virker også som en dato, omkring hvilke ML meddelelser er planlagt.

Også: fortid, nutid, og fremtid streaming: Flink, en Gnist, og den bande

MLFlow er Databricks’ egen skabelse. Databricks er den kommercielle enhed bag Apache Gnist, så der MLFlow ‘s nye udgave annonceret i Databricks CTO Matei Zaharia’ s keynote var forventet. ZDNet fanget op med Zaharia til at diskutere alt fra vedtagelsen mønstre og use cases til konkurrence -, programmerings-sprog, og fremtiden for machine learning.

Samlet analytics

Databricks’ motto er “samlet analytics.” Som Databricks CEO Ali Ghodsi bemærkede i sin keynote, målet er at samle data, teknik og mennesker, rive ned, teknologi og organisatoriske siloer. Dette er en bred vision, og Databricks er ikke de første til at gå i gang på denne rejse.

Med fokus på teknologi-det handler om at samle data, teknik og data videnskab. Som Zaharia bemærkes, at alle begynder med data teknik:

“I omkring 80 procent af de use cases, people’ s endelige mål er at gøre data videnskab eller machine learning. Men for at gøre dette, er du nødt til at have en pipeline, der pålideligt kan indsamle data over tid.

Begge dele er vigtige, men du har brug for de data teknik til at gøre resten. Vi målrette mod brugere med store volumener, som er mere udfordrende. Hvis du bruger Gnist til at gøre distribueret databehandling, det betyder, at du har masser af data.”

Også: Påståelig og åbne machine learning: nuancerne ved at bruge Facebook ‘ s PyTorch

Oftere, at der ikke, det betyder også, at dine data kommer fra en række kilder. Gnist, samt Delta, Databricks’ egen cloud-platform bygget på Gnist, der allerede understøtter læsning fra og skrivning til en række datakilder. Evnen til at bruge Gnist som en behandling hub til forskellige datakilder, der har været nøglen til dens succes.

Nu, Databricks ønsker at tage et skridt videre, ved at forene forskellige machine learning rammer fra laboratoriet til produktionen via MLFlow, og opbygningen af en fælles ramme for data og udførelse via Projektet Brint.

MLFlow ‘ s mål er at hjælpe med at spore eksperimenter, dele og genbruge projekter, og productionize modeller. Det kan ses som en kombination af data videnskab notebooks udvidet med funktioner, såsom historie, der er fundet i kode versionering systemer som Git, med afhængighed ledelse og implementering funktioner, der findes i kan lide af Maven og Gradle.

MLFlow blev annonceret i juni sidste år, og det har allerede omkring 50 bidragydere fra en række organisationer også at bruge det i produktion. Zaharia sagde, at de gør gode fremskridt med MLFlow, og på dette punkt er, målet er at få masser af feedback og forbedre MLFlow, indtil de er tilfredse med det.

Udover at være i stand til at implementere ML modeller på Spark og Delta, MLFlow kan også eksportere dem som en REST service til at køre på enhver platform, eller om Kubernetes via Docker containerization. Cloud-miljøer er også understøttet, der i øjeblikket AWS SageMaker og Azure ML, udnytte avancerede funktioner som A/B-test, der tilbydes af disse platforme.

Også: Neuton: En ny, ødelæggende neurale netværk ramme for AI-programmer

Zaharia bemærkes, at målet er at sikre, at modeller, der kan pakkes til programmer-for eksempel, mobile applikationer. Der er forskellige måder at gøre dette, tilføjede han, såsom at eksportere modellen som en Java-klasse, men ikke en standard måde, og det er en kløft MLFlow har til formål at løse.

Fremtiden for machine learning er fordelt

Hvis du er fortrolig med ML-modellen installation, kan du vide, om PMML og PFA. PMML og PFA er eksisterende standarder for emballage ML modeller for implementering. At diskutere differentiering med disse var forbindelsen til den anden initiativ Databricks arbejder på: Projekt Brint.

Projektet Brint ‘ s mål er at samle state-of-the-art AJ og big data i Apache Gnist. Hvad dette betyder, i praksis er foreningen af data og udførelse, der giver en måde for forskellige ML rammer for at udveksle data, og til at standardisere uddannelse og inferens proces.

For data-del, Projektet Brint bygger på Apache Pil. Apache Pil er en fælles indsats for at repræsentere big data i hukommelsen for maksimal ydeevne og kompatibilitet. Zaharia bemærkes, at det allerede understøtter nogle data typer, og kan udvides til mere: “Vi kan gøre det bedre.”

Også: Behandling af tidsserie data: Hvad er mulighederne?

Så, hvorfor ikke genbruge PMML/PFA for udførelsen del? To ord, i henhold til Zaharia: Distribueret uddannelse. Zaharia bemærkes, at mens PMML / PFA er rettet mod emballage modeller for implementering, og der er nogle integration med disse, begge har deres begrænsninger. I virkeligheden, tilføjede han, er der ingen standard model serialisering format, som virkelig skærer det lige nu:

“ONNX er en ny en. Folk taler også om Tensorflow grafer, men ingen af dem dækker alt. Tensorflow grafer ikke dækker ting som tilfældige skov. PMML dækker ikke dyb læring meget godt.

I MLFlow, vi se disse via en mere simpel brugerflade, som ‘min model er en funktion med nogle biblioteker, jeg har brug for at installere.’ Så vi behøver ikke bekymre sig om, hvordan modellen vælger at gemme bits, men om, hvad vi har brug for at installere.

Vi kan støtte distribueret uddannelse via noget MPI. Dette er en meget standard måde at opbygge High Performance Computing (HPC) job. Det har eksisteret i 20 år, og det virker!”

Denne forfatter kan vidne om, at begge påstande, som MPI var, hvad vi plejede at gøre HPC forskning præcis 20 år siden. Zaharia gik på at tilføje, at hvor det er muligt, at de gerne vil genbruge eksisterende eu-bidrag, citerer for eksempel Horovod, en open-source rammer for distribueret ML bygget af Uber.

Zaharia bemærkes, at Horovod er en mere effektiv måde at kommunikere i et distribueret dyb læring ved hjælp af MPI, og det virker med Tensorflow og PyTorch: “for At bruge dette, er du nødt til at køre en MPI job og fodre det, data, og du er nødt til at tænke på, hvordan partition data.”

Også: 10 måder AI vil påvirke virksomheden i 2018 TechRepublic

Soumith Chintala, PyTorch projektleder, synes at dele Zaharia ideer om distribueret uddannelse er den næste store ting i dyb læring, som det er blevet indført i den nyeste version af PyTorch. For state of the art i dette, kan du også se Jim Dowling fra Logiske Ure AB tale om Distribuerede Dyb Læring med Apache Gnist og TensorFlow i Spark og AI-Topmødet (ovenfor).

Programmeringssprog, transaktioner og vedtagelse

Den del, hvor Zaharia nævnt eksporterende ML modeller som Java-klasser var en god mulighed for at diskutere programmeringssprog støtte og vedtagelse mønstre på Gnist. Alt i alt, Zaharia ‘ s observationer er i overensstemmelse med stemningen i fællesskabet:

“Jeg tror, vi for det meste se, Python, R, og Java i data videnskab og machine learning projekter, og så er der en drop-off.

I MLFlow vi startede med bare Python, og tilføjet Java, Scala, og R. Brug varierer afhængigt af use case, hvilket er grunden til, at vi forsøger at støtte så mange som muligt. De mest almindelige, især for nye ML-projekter har en tendens til at være Python, men der er mange områder, hvor F har en fantastisk biblioteker og folk bruger det. I andre områder, især til store installationer, mennesker, der bruger Java eller Scala.”

Dette var også en god mulighed for at diskutere Apache Stråle. Beam er et projekt, der har til formål at abstrakte streaming behandling via en platform-agnostisk API, så det kan være bærbare. Beam har for nylig tilføjet en mekanisme til støtte for programmer på andre sprog ud over sin native Java, og det er, hvad Apache Flink, en vigtig konkurrent til Gnist, der er brug for at tilføje Python-understøttelse.

Sidste gang vi talte sammen, Databricks var ikke interesseret i at afsætte ressourcer til at støtte Stråle, så vi spekulerede på, om muligheden af at tilføje understøttelse for flere programmeringssprog via Stråle kan ændre det. Egentlig ikke, da det viser sig.

Zaharia fastholdt den bedste måde at gøre streaming på Spark er at bruge Spark struktureret streaming direkte, selv om tredje-parts integration med Beam eksisterer. Men det gjorde han anerkender, at muligheden for at støtte mange forskellige sprog via Stråle er interessant.

Også: AI betyder en levetid på uddannelse CNET

Desuden tilføjede han dog, at i modsætning til Spark, hvor supplerende understøttelse af sprog, der blev gjort efterfølgende, i MLFlow, REST-understøttelse gør det muligt folk til at opbygge en pakke, for eksempel ved hjælp af Julia nu, hvis de ønsker det.

Zaharia også kommenteret på indførelsen af SYRE ved at Apache Flink, og hvad dette betyder for Gnist, især i betragtning af data Håndværkere”, der afventer patent. Zaharia var forundret over, hvad præcis kunne være patenteret. Han bemærkede, at streaming, der arbejdede med Postgres, for eksempel, har været kendt siden begyndelsen af 2000’erne, og præcis når semantik har været støttet af en Gnist streaming siden sin oprindelige udgivelse:

“Når Gnist taler om præcis en gang, at der er transaktionsbeslutning. Delta også understøtter transaktioner med en bred vifte af systemer, som at Hive eller HDFS. Måske er det patent, der dækker en specifik distribution mønster eller opbevaring format. Men i alle tilfælde transaktioner er vigtigt, at dette spørgsmål er i produktion.”

Også: internettet som en database: Den største viden graf nogensinde

Som for Databricks cloud-eneste strategi, Zaharia bemærkes, at det fungerer ganske udmærket. Nogle gange. det er Gnist brugere, der migrerer til Databricks platform. Andre gange, det er line-of-business-krav, der dikterer en cloud-den første tilgang, men i alle tilfælde lader det til, Spark har etableret en stærk nok fodfæste i en relativt kort tid. Og med Gnist fortsætter med at innovere, og der er ingen tegn på afmatning i horisonten.

Tidligere og relaterede dækning:

Hvad er AI? Alt, hvad du behøver at vide

En executive guide til kunstig intelligens, fra machine learning og generelt AI til neurale netværk.

Hvad er dyb læring? Alt, hvad du behøver at vide

Den lowdown på en dyb læring: fra hvordan det relaterer til det bredere felt af machine learning igennem til, hvordan du kommer i gang med det.

Hvad er machine learning? Alt, hvad du behøver at vide

Denne vejledning forklarer, hvad machine learning er, hvordan det er relateret til kunstig intelligens, hvordan det fungerer, og hvorfor det er vigtigt.

Hvad er cloud computing? Alt, hvad du behøver at vide om

En introduktion til cloud computing-lige fra det grundlæggende op til IaaS og PaaS, hybrid, offentlige og private cloud.

Relaterede historier:

Der er ingen rolle for AI eller data videnskab: dette er en holdindsats Start Slægt bringer splint af håb for AI i robotteknologi AI: udsigt fra Chief Data Videnskab Kontor Salesforce-introer Einstein Stemme, en AI stemme assistent for virksomheder er det ikke Det job AI er ødelæggende for at genere mig, det er dem, der er voksende

Relaterede Emner:

Big Data Analytics

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software