Skrevet af Tony Baer (dbInsight), medvirkende skribent
Tony Baer (dbInsight) Bidragende skribent
Tony Baer, grundlægger og rektor af dbInsight, er en anerkendt brancheekspert i datadrevet transformation.
Fuld biografi. Udgivet i Big on Data den 9. februar 2022 | Emne: Big Data
Shutterstock
Som stor på data, bror Andrew Brust rapporterede sidste efterår, har Domino Data Lab på det seneste taget et bredere syn på MLOps, fra eksperimentstyring til kontinuerlig integration/kontinuerlig levering af modeller, feature engineering og livscyklusstyring. I den nyligt udgivne 5.0-version fokuserer Domino på forhindringer, der typisk forsinker den fysiske implementering.
Den vigtigste blandt de nye muligheder er autoskalering. Før dette skulle dataforskere enten spille rollen som klyngeingeniører eller arbejde sammen med dem for at få modeller i produktion og styre computere. Den nye udgivelse gør det muligt at automatisere dette trin, hvilket udligner vilkårene med cloud-tjenester som Amazon SageMaker og Google Vertex AI, som allerede gør det, og Azure Machine Learning-tilbud i forhåndsvisning. For yderligere at udjævne vejen er den certificeret til at køre på Nvidia AI Enterprise-platformen (Nvidia er en af investorerne i Domino).
Autoskaleringsfunktionerne bygger på understøttelse af Ray og Dask (udover Spark) som blev tilføjet i den tidligere version 4.6, som giver API'er til indbygning af distribueret databehandling i koden.
En anden ny funktion i 5.0, der tackler implementeringen, er tilføjelsen af et nyt bibliotek af dataforbindelser, så dataforskere ikke behøver at genopfinde hjulet, hver gang de prøver at oprette forbindelse til Snowflake, AWS Redshift eller AWS S3; andre datakilder vil blive tilføjet i fremtiden.
Afrunding af 5.0-udgivelsen er indbygget overvågning. Dette integrerede faktisk en tidligere selvstændig funktion og skulle konfigureres manuelt. Med 5.0 opsætter Domino automatisk overvågning, fanger live forudsigelsesstreams og kører statistiske tjek af produktion vs. træningsdata, når en model er implementeret. Og til debugging tager den snapshots af modellen: versionen af koden, datasæt og konfigurationer af computermiljøet. Med et enkelt klik opretter dataforskere et udviklingsmiljø af den versionerede model for at foretage fejlretning. Systemet automatiserer dog ikke på nuværende tidspunkt registrering eller giver anbefalinger om, hvor modeller skal repareres.
Gnisten (uden ordspil) til 5.0-funktionerne er at tackle operationel hovedpine, der tvinger dataforskere til at udføre system- eller klyngeingeniøropgaver eller stole på, at administratorer udfører det for dem.
Men der er også den datatekniske flaskehals, som vi fandt ud af forskning, vi udførte for Ovum (nu Omdia) og Dataiku tilbage i 2018. Fra dybtgående diskussioner med over et dusin chief data officers fandt vi ud af, at dataforskere typisk bruger over halvdelen tiden med datateknik. 5.0-udgivelsen tackler en stor forhindring inden for datateknologi – forbindelse til populære eksterne datakilder, men i øjeblikket behandler Domino ikke opsætningen af datapipelines eller mere elementært automatisering af dataforberedelsesopgaver. Selvfølgelig er sidstnævnte (integration af dataforberedelse) det, der drev Data Robots opkøb af Paxata i 2019.
5.0-funktionerne afspejler, hvordan Domino Data Lab og andre ML-livscyklusstyringsværktøjer har været nødt til at udvide fokus fra modellens livscyklus til implementering. Det afspejler til gengæld, at efterhånden som virksomheder får mere erfaring med ML, udvikler de oftere flere modeller og har behov for at industrialisere, hvad der oprindeligt var engangsprocesser. Vi ville ikke blive overraskede, hvis Domino næste gang rettede sit fokus mod feature-butikker.
Big Data
Sync Computing har til formål at fortsætte, hvor serverløs afbrydes Nyt filformat, der hjælper forskere med at reducere DNA-analysetid Google afslører differentielt privatlivsværktøj til Python-udviklere, der behandler data Rapport: IT-migrering til skyen rammer enorme forhindringer Data Management | Digital transformation | Robotik | Internet of Things | Innovation | Enterprise Software