
X-Koordinat stöd i MLflow användargränssnitt
Kredit: Databricks
För ett år sedan igår, på 2018 Gnista och AI Summit i San Francisco, Matei Zaharia, Databricks’ co-grundare och Chief Technologist, och skapare av Apache Gnista, presenterade sin nya utveckling i fokus, ett open source-projekt som kallas MLflow. Idag har projektet uppnått en större mognad milstolpe i och med lanseringen av en full version 1.0 till allmän tillgänglighet.
Läs också: Apache Gnista skapare ställer ut för att standardisera distribueras machine learning utbildning, genomförande och distribution
För från entropi
Data vetenskap arbetsflöde, till denna dag, är chock full av ad hoc-uppgifter i skarpt avgränsade utvecklingsmiljöer. Medan saker och ting långsamt att förändras, det är alltför vanligt för data forskare att pilla på sina bärbara datorer, algoritmer och hyperparameter värden, tills de har en utbildad ML modell som de vill, för att sedan manuellt sätta i produktion.
MLflow syftar till att införa stringens i denna process, vilket gör att varje utbildning iteration vara inloggad och modell för distribution till ett antal moln eller privata miljöer, att vara automatiserad. Detta gör att arbetet med att vara synlig för andra uppgifter forskare (som förhoppningsvis kommer att undvika att göra om samma arbete) och för automatisering av omskolning och därpå följande omfördelning av modellen.
V1 spik ner
MLflow gör att detta arbete ska göras på kommandoraden, genom ett användarvänligt gränssnitt, eller via ett API (application programming interface). Alla tre av dessa gränssnitt var föremål för en betydande förändring under MLflow första år av utveckling, men i och med detta 1.0 version, utvecklare kan lita på dessa gränssnitt som är stabil från och med nu.
Dessutom MLflow 1.0 erbjuder flera nya funktioner. Även om vissa av dessa är ganska tekniskt granulat, jag ska försöka sammanfatta dem:
Stöd för Hadoop (Distributed File System HDFS) som en “Artefakt Butik”, så MLFlow att lagra sina filer i-lokaler Hadoop kluster, i tillägg till moln lagring, lokala diskar (Network File System (NFS) lagring och Säker FTP
Stöd för ONNX (Öppen Neurala Nätverk för utbyte) machine learning model format — ursprungligen backas upp (och används) av Microsoft, Amazon och Facebook — som en MLflow modell “smak”Förbättrade sökfunktioner, så att en SQL-syntax som ska användas för att filtrera uttryck som grundar sig på egenskaper och taggar, förutom statistik och parametersSupport för att spåra metriska värden som är baserade på andra tongångar än tid (officiellt är detta som kallas “Stöd för X-Koordinaterna i Spårning API”). Detta illustreras i figuren längst upp i detta inlägg, som visar hur MLflow UI gör att X-axeln av sin Statistik visualisering för att vara inställd på att Steg, förutom att två varianter av Tid.Flera värden kan loggas i “batch”, vilket innebär att de kan registreras via en enda API-anrop, istället för att ringa per metric-värde-par.
Respekt som en standard, med fler på gång
Det är en fin uppsättning funktioner, och det finns mer att komma. Den MLflow färdplanen innehåller en modell register som kan underlätta kontinuerlig integration/installation (CL/CD), modell in/kodgranskning, liksom insikt i användningen och effektiviteten av olika modell versioner. Det finns planer för att i flera steg arbetsflöde stöd också.
Databricks säger MLflow nu har över 100 medarbetare, och har använts i tusentals organisationer. Lägg till att deltagande från Microsoft och stöd för MLflow i sin Azure Machine Learning plattform, och det här projektet ser ut att ha uppnått status av en standard, i en disciplin starkt behov av dem.
Läs också: Microsoft att gå med MLflow projekt, lägga inbyggt stöd till Azure maskininlärning
Relaterade Ämnen:
Cloud
Digital Omvandling
CXO
Sakernas Internet
Innovation
Affärssystem