
X-Koordinat støtte i MLflow brugergrænseflade
Kredit: Databricks
For et år siden, i går, i 2018 Gnist og AI-Topmødet i San Francisco, Matei Zaharia, Databricks’ co-founder/Chief Technologist og skaberen af Apache Gnist, præsenterede sin nye udvikling i fokus, et open source-projekt kaldet MLflow. I dag har projektet opnået en større modenhed milepæl, med udgivelsen af en fuld version 1.0 generelle ledighed.
Læs også: Apache Gnist skabere sat sig for at standardisere fordelt machine learning uddannelse, udførelse og implementering
Ordre fra entropi
De data, videnskab workflow, som den dag i dag, er chock fuld af ad hoc-opgaver i siloed udviklingsmiljøer. Mens tingene langsomt at ændre sig, det er alt for almindeligt, at data forskere til at pille på deres bærbare computere, med algoritmer og hyperparameter værdier, indtil de har en uddannet ML model, som de kan lide, og derefter manuelt installere til produktion.
MLflow har til formål at indføre stringens på denne proces, så hver træning iteration at blive logget af og model for implementering, til et vilkårligt antal af cloud eller private miljøer, til at blive automatiseret. Dette gør det arbejde, der skal findes ved hjælp af andre data, der er forskere (og som forhåbentlig vil undgå dem laver det samme arbejde) og for automatisering af omskoling og efterfølgende omfordeling af modellen.
V1 negle det ned
MLflow giver mulighed for, at dette arbejde udføres på kommandolinjen, via en brugergrænseflade, eller via et API (application programming interface). Alle tre af disse grænseflader, som var underlagt væsentlige ændringer i løbet af MLflow ‘ s første år af udvikling, men med denne 1.0-udgivelse, udviklere kan stole på disse grænseflader er stabil herfra.
Hertil kommer, at MLflow 1.0 tilbyder flere nye funktioner. Selv om nogle af disse er temmelig teknisk kornet, jeg vil prøve at opsummere dem:
Støtte til Hadoop Distributed File System (HDFS) som en “Artefakt Butik”, så MLFlow til at gemme sine filer i on-premises Hadoop klynger, ud over til cloud storage, lokale diske, Network File System (NFS) opbevaring og Sikker FTP
Støtte til ONNX (det Åbne Neurale Netværk eXchange) machine learning model-format-oprindeligt støttet (og brugt) af Microsoft, Amazon og Facebook — som en MLflow model “smag”Forbedret søge-funktioner, der giver en SQL-lignende syntaks til at blive brugt til filter udtryk baseret på attributter og tags, ud over målinger og parametersSupport til sporing af metriske værdier baseret på progressioner andre end tid (officielt dette er omtalt som “Støtte til X-Koordinater i den Tracking API”). Dette er illustreret i figuren øverst i dette indlæg, som viser, hvordan MLflow UI giver X-aksen i sine Målinger visualisering for at blive indstillet til Trin, foruden to varianter af Tid.Flere parametre kan være logget ind for “parti”, hvilket betyder, at de kan optages via et enkelt API opkald, i stedet for at ringe til per variabel-værdi-par.
Respekt som en standard, med mere er på vej
Det er en god sæt af funktioner, og der er mere at komme. Den MLflow køreplanen indeholder en model registreringsdatabasen, som kan fremme kontinuerlig integration/ibrugtagning (CI/CD), model ind/kode-review, samt indsigt i brugen og effektiviteten af forskellige model versioner. Der er planer om, multi-step workflow støtte så godt.
Databricks siger MLflow har nu over 100 bidragydere, og har været indsat i tusindvis af organisationer. Tilføj til, at deltagelse fra Microsoft og støtte til MLflow i sin Azure Machine Learning platform, og dette projekt ser ud til at have opnået status af en standard, i en disciplin, der er stærkt brug for dem.
Læs også: Microsoft til at deltage MLflow projektet, tilføjer understøttelse til Azure Machine Learning
Relaterede Emner:
Cloud
Digital Transformation
CXO
Tingenes Internet
Innovation
Virksomhedens Software