Af Andrew Brust for Big on Data | 16. september 2021 – 13:30 GMT (14:30 BST) | Emne: Kunstig intelligens
Domino Model Monitor -grænsefladen i Domino 4.6
Kredit: Domino Data Lab
MLOps er maskinlæringsoperationernes modstykke til DevOps og DataOps. Men på tværs af branchen kan definitioner for MLOps variere. Nogle ser MLOps som fokus på ML -eksperimentstyring. Andre ser kernen i MLOps som at oprette CI/CD (kontinuerlig integration/kontinuerlig levering) rørledninger til modeller og data på samme måde som DevOps gør for kode. Andre leverandører og kunder mener, at MLOps bør fokuseres på såkaldt feature engineering-den specialiserede transformationsproces for de data, der bruges til at træne ML-modeller. For andre handler MLOps om alt efter modeludvikling, herunder vedligeholdelse af modeller i et depot, implementering af dem og overvågning af deres operationelle helbred, ydeevne og nøjagtighed.
Dominoer, fra ende til anden
Et par leverandører ser MLOps som at omfatte alt det ovenstående. En sådan leverandør er Domino Data Lab, som i dag annoncerer en ny udgivelse-Domino 4.6-af sin ende-til-ende MLOps-platform. Og fordi Domino fokuserer på alle aspekter af maskinindlæringsoperationer, har den ikke tilføjet nye, men i stedet forbedret et par af dem markant: modelovervågning, cloud -implementering og understøttede distribuerede computermiljøer til modeludvikling og træning.
Overvågningsforbedringerne fortæller historien om to MLOps -byer. I den ene live kunder, der stadig faser ML ind i deres virksomheder eller endda bare sparker ML's dæk. For dem er den blotte tilstedeværelse af overvågning tilstrækkelig. På den anden side bor kunder, der er uddannet til at lave ML i stor skala, med hundredvis eller endda tusinder af implementerede modeller. For denne kohorte skal overvågning skaleres.
Overvågning og sky og beregning, åh min
ZDNet talte med medstifter og CEO af Domino Data Lab, Nick Elprin, som gav os detaljerne om Domino 4.6. Han forklarede først, for den gruppe, der har brug for højtydende modelovervågning, at Domino Model Monitor (DMM – afbilledet i skærmbilledet ovenfor) er blevet forbedret til at være elastisk og skalerbar. Faktisk, siger Elprin, vil brugerne nyde op til 100x forbedring af skalaen i ydelsen af Dominos datadrift og detektering af modeldrift. Driftdetektering er afgørende for at holde modellerne nøjagtige og fair. I marketingapplikationer kan det øge kundetilfredsheden. Andre scenarier omfatter mere ansvarlig godkendelse af fordele og krav eller mere præcis afsløring af svig.
Domino 4.6 understøtter også cloud -distribution til Microsoft Azure og Google Cloud, i modsætning til bare Amazon Web Services. Specifikt understøttes nu forbindelse til data i Azure Data Lake Storage (ADLS) og Google Cloud Storage (GCS) ud over data i Amazon S3. Desuden omfatter overvågning modeller, der er implementeret til alle tre cloud -udbyderes infrastruktur som en tjeneste (Iaas) og Kubernetes -lag. Elprin forklarede, at disse muligheder er blevet tilføjet som direkte svar på efterspørgslen fra kunder med multi-cloud-strategier for at undgå låsning af en bestemt cloud-udbyder.
Endelig, som svar på det stadig større behov for computerkraft for at træne flere modeller, hurtigere, udvider Domino computerstøtte til at omfatte Ray og Dask, snarere end kun Apache Spark. Ray er en distribueret udførelsesramme, der kan parallelisere arbejdsbelastninger på tværs af CPU'er og kerner på en enkelt maskine, på tværs af skyinfrastruktur eller på Kubernetes -klynger. Dask er et Python parallel computing bibliotek, der implementerer skalerede, paralleliserede versioner af almindelige Python data science biblioteker som NumPy, Pandas og scikit-learn. Ray og Dask kan bruges individuelt, eller ved hjælp af det passende navn Dask on Ray kan kombineres.
Bryde koden
I sin diskussion med ZDNet forklarede Elprin nogle af de store forskelle, som han ser dem, mellem DevOps og MLOps. Jeg vil gøre mit bedste for at opsummere denne forklaring her.
Til at begynde med er ML -modeller ikke blot kode; de bruger flere data og har brug for meget mere intensiv beregning end typisk applikation og serverbaseret kode gør. Derudover er datavidenskab ligesom forskning – dataforskere skal eksperimentere og prøve mange Python (eller R) biblioteker, forskellige algoritmer og mere generelt forskellige tilgange eller ideer, før de får noget, der virker. Dette kan sammenlignes med den måde, naturforskere har brug for at teste forskellige hypoteser i deres eget arbejde. Også med modeller kan du ikke bare skrive enhedstest, da modeller er mere sandsynlige end deterministiske.
Med alt dette i tankerne giver Dominos vej til at forbedre sine overvågningsmuligheder og understøtte talrige cloud- og computermiljøer fuldstændig mening. Dataforskere behøver ikke bare at fejlsøge deres kode og sikre, at den kører. De skal eksperimentere med det, spore det, implementere det og løbende evaluere dets effektivitet. Det er derfor, MLOps er sin egen kategori, og tilsyneladende derfor, at Domino tager en scorecard -tilgang til MLOps -muligheder, snarere end en tjekliste -tilgang.
Domino siger, at eksisterende kunder kan opgradere til 4.6 -udgivelsen med det samme.
< h3> Relaterede emner:
Big Data Analytics Digital Transformation CXO Internet of Things Innovation Enterprise Software