Domino Data Labs nya version trycker kuvertet på MLOps

0
131

 Andrew Brust

Av Andrew Brust för Big on Data | 16 september 2021 – 13:30 GMT (14:30 BST) | Ämne: Artificiell intelligens

 domino-4-dot-6.jpg

Domino Model Monitor -gränssnittet i Domino 4.6

Kredit: Domino Data Lab

MLOps är maskininlärningsoperationens motsvarighet till DevOps och DataOps. Men i branschen kan definitioner för MLOps variera. Vissa ser MLOps som fokus på ML -experimenthantering. Andra ser kärnan i MLOps som att sätta upp CI/CD (kontinuerlig integration/kontinuerlig leverans) pipelines för modeller och data på samma sätt som DevOps gör för kod. Andra leverantörer och kunder anser att MLOps bör fokuseras på så kallad feature engineering-den specialiserade transformationsprocessen för data som används för att träna ML-modeller. För andra handlar MLOps om allt efter modellutveckling, inklusive att behålla modeller i ett förråd, distribuera dem och övervaka deras operativa hälsa, prestanda och noggrannhet.

Dominoer, från ände till slut

Några leverantörer ser MLOps som omfattar allt ovan. En sådan leverantör är Domino Data Lab, som idag tillkännager en ny version-Domino 4.6-av sin end-to-end MLOps-plattform. Och eftersom Domino fokuserar på alla aspekter av maskininlärningsoperationer har den inte lagt till nya, utan har istället förbättrat några av dem avsevärt: modellövervakning, molndistribution och stöd för distribuerade datormiljöer för modellutveckling och utbildning.

Övervakningsförbättringarna berättar om två MLOps -städer. I en, levande kunder som fortfarande fasar in ML i sina företag eller till och med sparkar ML: s däck. För dem är det endast tillräckligt med övervakning. På andra sidan bor kunder som har tagit examen för att göra ML i stor skala, med hundratals eller till och med tusentals utplacerade modeller. För den här kohorten måste övervakning skala.

Övervakning och moln och beräkna, herregud

ZDNet pratade med grundare och VD för Domino Data Lab, Nick Elprin, som gav oss detaljer om Domino 4.6. Han förklarade först, för den gruppen som behöver högpresterande modellövervakning, att Domino Model Monitor (DMM – bilden på skärmdumpen ovan) har förbättrats för att vara elastisk och skalbar. Faktum är att Elprin säger att användarna kommer att njuta av upp till 100x skalförbättringar i prestandan för Dominos datadrift och modellavkänning. Driftdetektering är avgörande för att hålla modellerna korrekta och rättvisa. I marknadsföringsapplikationer kan det leda till högre kundnöjdhet. Andra scenarier inkluderar mer ansvarsfullt godkännande av förmåner och fordringar, eller mer exakt upptäckt av bedrägerier.

Domino 4.6 stöder också molndistribution till Microsoft Azure och Google Cloud, i motsats till bara Amazon Web Services. Specifikt stöds nu anslutning till data i Azure Data Lake Storage (ADLS) och Google Cloud Storage (GCS) utöver data i Amazon S3. Dessutom omfattar övervakningen modeller som distribueras till alla tre molnleverantörernas infrastruktur som en tjänst (Iaas) och Kubernetes -lager. Elprin förklarade att dessa funktioner har lagts till som ett direkt svar på efterfrågan från kunder med flera molnstrategier, för att undvika låsning till någon specifik molnleverantör.

Slutligen, som svar på det allt större behovet av datorkraft för att träna fler modeller, snabbare, utökar Domino datorstödet till att omfatta Ray och Dask, snarare än bara Apache Spark. Ray är ett distribuerat exekveringsramverk som kan parallellisera arbetsbelastningar över processorer och kärnor på en enda maskin, över molninfrastruktur eller på Kubernetes -kluster. Dask är ett Python parallellt datorbibliotek som implementerar skalade, parallella versioner av vanliga Python-datavetenskapliga bibliotek som NumPy, Pandas och scikit-learn. Ray och Dask kan användas individuellt eller, med den lämpliga namnet Dask on Ray, kan kombineras.

Bryta koden

I sin diskussion med ZDNet förklarade Elprin några av de viktigaste skillnader, som han ser dem, mellan DevOps och MLOps. Jag ska göra mitt bästa för att sammanfatta den förklaringen här.

Till att börja med är ML -modeller inte bara kod; de använder mer data och behöver mycket mer intensiv beräkning än vad vanlig applikation och serverbaserad kod gör. Dessutom är datavetenskap som forskning – datavetenskapare måste experimentera, prova mycket Python (eller R) bibliotek, olika algoritmer och, mer allmänt, olika tillvägagångssätt eller idéer, innan de får något som fungerar. Detta är jämförbart med hur naturforskare behöver testa olika hypoteser i sitt eget arbete. Med modeller kan du inte bara skriva enhetstester, eftersom modeller är mer sannolikhets- än deterministiska.

Med allt detta i åtanke är Dominos sätt att förbättra sina övervakningsmöjligheter och stödja många moln- och beräkningsmiljöer perfekt. Datavetenskapare behöver inte bara felsöka sin kod och se till att den körs. De måste experimentera med det, spåra det, distribuera det och kontinuerligt utvärdera dess effektivitet. Det är därför MLOps är sin egen kategori, och tydligen varför Domino tar ett scorecard -tillvägagångssätt för MLOps -funktioner, snarare än en checklista.

Domino säger att befintliga kunder kan uppgradera till 4,6 -versionen direkt.

< h3> Relaterade ämnen:

Big Data Analytics Digital Transformation CXO Internet of Things Innovation Enterprise Software  Andrew Brust

Av Andrew Brust för Big on Data | 16 september 2021 – 13:30 GMT (14:30 BST) | Ämne: Artificiell intelligens