NORSK

Domino Data Labs nye utgivelse skyver konvolutten på MLOps

124

Av Andrew Brust for Big on Data | 16. september 2021 – 13:30 GMT (14:30 BST) | Tema: Kunstig intelligens

MLOps er maskinlæringsoperasjonens motstykke til DevOps og DataOps. Men på tvers av bransjen kan definisjoner for MLOps variere. Noen ser på MLOps som fokuserer på ML -eksperimentledelse. Andre ser kjernen i MLOps som å sette opp CI/CD (kontinuerlig integrering/kontinuerlig levering) rørledninger for modeller og data på samme måte som DevOps gjør for kode. Andre leverandører og kunder mener MLOps bør fokuseres på såkalt feature engineering-den spesialiserte transformasjonsprosessen for dataene som brukes for å trene ML-modeller. For andre handler MLOps om alt etter modellutvikling, inkludert vedlikehold av modeller i et depot, distribusjon av dem og overvåking av deres driftshelse, ytelse og nøyaktighet.

Dominoer, fra ende til annen

Noen få leverandører ser på MLOps som omfatter alt det ovennevnte. En slik leverandør er Domino Data Lab, som i dag kunngjør en ny utgivelse-Domino 4.6-av sin ende-til-ende MLOps-plattform. Og fordi Domino fokuserer på alle aspekter ved maskinlæringsoperasjoner, har den ikke lagt til nye, men har i stedet forbedret noen få av dem: modellovervåking, sky -distribusjon og støttede distribuerte databehandlingsmiljøer for modellutvikling og opplæring.

Overvåkingsforbedringene forteller historien om to MLOps -byer. I den ene lever kunder som fremdeles faser ML inn i virksomheten sin eller bare sparker ML's dekk. For dem er bare tilstedeværelsen av overvåking tilstrekkelig. På den andre siden bor kunder som har uteksaminert seg til å gjøre ML i stor skala, med hundrevis eller tusenvis av distribuerte modeller. For denne kohorten må overvåking skaleres.

Overvåking og sky og beregning, herregud

ZDNet snakket med medstifter og administrerende direktør i Domino Data Lab, Nick Elprin, som ga oss detaljene om Domino 4.6. Han forklarte først, for den gruppen som trenger modellovervåking med høy ytelse, at Domino Model Monitor (DMM – bildet på skjermbildet ovenfor) er forbedret til å være elastisk og skalerbar. Faktisk, sier Elprin, vil brukerne ha en forbedring på opptil 100x skala i ytelsen til Dominos datadrift og deteksjon av modelldrift. Driftdeteksjon er avgjørende for å holde modellene nøyaktige og rettferdige. I markedsføringsapplikasjoner kan det gi større kundetilfredshet. Andre scenarier inkluderer mer ansvarlig godkjenning av fordeler og krav, eller mer nøyaktig registrering av svindel.

Domino 4.6 støtter også sky -distribusjon til Microsoft Azure og Google Cloud, i motsetning til bare Amazon Web Services. Spesielt støttes nå tilkobling til data i Azure Data Lake Storage (ADLS) og Google Cloud Storage (GCS) i tillegg til data i Amazon S3. Videre strekker overvåkingen seg til modeller som er distribuert til alle tre skyleverandørenes infrastruktur som en tjeneste (Iaas) og Kubernetes -lag. Elprin forklarte at disse egenskapene er blitt lagt til som direkte svar på etterspørsel fra kunder med strategier for flere skyer, for å unngå låsing til en hvilken som helst spesifikk skyleverandør.

Til slutt, som svar på det stadig større behovet for datakraft for å trene flere modeller, utvider Domino raskere datamaskinstøtte til å omfatte Ray og Dask, i stedet for bare Apache Spark. Ray er et distribuert rammeverk for utførelse som kan parallellisere arbeidsmengder på tvers av CPUer og kjerner på en enkelt maskin, på tvers av skyinfrastruktur eller på Kubernetes -klynger. Dask er et parallelt databehandlingsbibliotek i Python som implementerer skalerte, parallelle versjoner av vanlige Python-datavitenskapsbiblioteker som NumPy, Pandas og scikit-learn. Ray og Dask kan brukes individuelt, eller ved hjelp av det passende navnet Dask on Ray kan kombineres.

Bryte koden

I sin diskusjon med ZDNet forklarte Elprin noen av de viktigste forskjeller, som han ser dem, mellom DevOps og MLOps. Jeg skal gjøre mitt beste for å oppsummere denne forklaringen her.

Til å begynne med er ML -modeller ikke bare kode; de bruker mer data og trenger mye mer intensiv beregning enn vanlig applikasjon og serverbasert kode gjør. I tillegg er datavitenskap som forskning – data forskere må eksperimentere, prøve mange Python (eller R) biblioteker, forskjellige algoritmer og, mer generelt, forskjellige tilnærminger eller ideer, før de får noe som fungerer. Dette kan sammenlignes med måten naturforskere trenger for å teste forskjellige hypoteser i sitt eget arbeid. Også med modeller kan du ikke bare skrive enhetstester, ettersom modeller er mer sannsynlige enn deterministiske.

Med alt dette i tankene, gir Dominos tiltak for å forbedre sine overvåkingskapasiteter og støtte mange sky- og databehandlingsmiljøer perfekt mening. Datavitenskapere trenger ikke bare feilsøke koden og sørge for at den kjører. De må eksperimentere med det, spore det, distribuere det og kontinuerlig evaluere effektiviteten. Det er derfor MLOps er sin egen kategori, og tilsynelatende hvorfor Domino tar en scorecard -tilnærming til MLOps -funksjoner, snarere enn en sjekkliste -tilnærming.

Domino sier at eksisterende kunder kan oppgradere til 4.6 -utgivelsen umiddelbart.

< h3> Relaterte emner:

Big Data Analytics Digital Transformation CXO Internet of Things Innovation Enterprise Software

Av Andrew Brust for Big on Data | 16. september 2021 – 13:30 GMT (14:30 BST) | Tema: Kunstig intelligens

Dominoer, fra ende til annen

Overvåking og sky og beregning, herregud

Bryte koden

LEAVE A REPLY