Statens AI i 2021: Maskinlæring i produksjon, MLOps og datasentrisk AI

0
122

 George Anadiotis

Av George Anadiotis for Big on Data | 14. oktober 2021 | Tema: Big Data Analytics

Det er den tiden på året igjen: Rapporter om tilstanden til AI for 2021 er ute. For noen dager tilbake var det rapporten Machine Learning, Artificial Intelligence and Data av Matt Turck, som ZDNet Big on Data -kollega Tony Baer dekket. Denne uken er det State of AI 2021 -rapporten, av Nathan Benaich og Ian Hogarth.

Etter å ha gitt ut den som sannsynligvis var den mest omfattende rapporten om State of AI i 2020, er Air Street Capital og RAAIS -grunnlegger Nathan Benaich og AI -engelinvestor og UCL IIPP -besøkende professor Ian Hogarth tilbake for mer.

I hva begynner å bli en verdsatt årlig tradisjon, tok vi kontakt med Benaich og Hogarth for å diskutere temaer som skilte seg ut for oss i rapporten.

MLOps, maskinlæring i produksjon

For det første er det overlapping med temaene som Turck dekket og Baer rapporterte om, og med god grunn. Som Baer påpekte, gjør bølgen av børsnoteringer og spredning av enhjørninger dette markedet til sin egen sektor, og det er umulig å ignorere. For en oversikt over markedstrender, oppfordrer vi leserne til å ta en titt på Baers dekning.

Når det er sagt, er vår følelse at State of AI 2021 -rapporten dekker flere emner: den siste utviklingen innen AI -forskning, industri, talent og politikk, mens den også satser på spådommer. Faktisk holder Benaich og Hogarth oversikt over spådommene sine, og de har det ganske bra. For eksempel forutslo de i 2020 hindringene i Arms oppkjøp av Nvidia, og AI og bioteknologirelaterte børsnoteringer.

Som Benaich bemerket, i kraft av å være investorer i forskjellige hovedsakelig tidlige stadier maskinlæringsselskaper, har de tilgang til store AI -laboratorier, akademiske grupper, oppstartende kommende oppstart, større selskaper, så vel som folk som jobber i regjeringen. Så de prøver å syntetisere alle de forskjellige vinklene i et offentlig gode produkt som er åpen kildekode og har som mål å helhetlig informere alle interessenter.

Vi valgte noen overordnede temaer som skilte seg ut for oss i rapporten, slik vi har identifiserte dem også gjennom året. Den første er MLOps – kunsten og vitenskapen om å bringe maskinlæring til produksjon. Ved operasjonell AI beveger vekten seg fra skinnende nye modeller til kanskje mer dagligdagse, men praktiske aspekter.

Med den økende kraften og tilgjengeligheten til maskinlæringsmodeller har gevinsten fra modellforbedringer blitt marginale. I denne sammenhengen blir maskinlæringssamfunnet stadig mer bevisst på viktigheten av bedre datapraksis, og mer generelt bedre MLOps, for å bygge pålitelige maskinlæringsprodukter.

Hazy Research, Stanford

Med den økende kraften og tilgjengeligheten til maskinlæringsmodeller har gevinsten fra modellforbedringer blitt marginale. I denne sammenhengen blir maskinlæringssamfunnet stadig mer bevisst på viktigheten av bedre datapraksis, og mer generelt bedre MLOps, for å bygge pålitelige maskinlæringsprodukter.

Benaich bemerket at de syntes det var viktig å markere fornyet oppmerksomhet i mer bransjesinnet akademisk arbeid rundt datakvalitet og ulike problemstillinger som kan ligge i data som til slutt formerer seg mot ML -modeller, og avgjør om modeller forutsier godt eller ikke:

“Mange akademia fokuserte på å konkurrere om statiske referanser, vise modellytelse frakoblet på disse referansene, og deretter gå inn i industrien. Så generasjon en handlet mye om – la oss bare få en modell som fungerer for et bestemt problem, og deretter håndtere eventuelle problemer eller endringer når de skjer.

Google -forskere definerer datakaskader som “sammensatte hendelser som forårsaker negative, nedstrøms effekter av dataproblemer”. Støttet av en undersøkelse blant 53 utøvere fra USA, India, Øst- og vestafrikanske land, de advarer om at dagens praksis undervurderer datakvaliteten og resulterer i datakaskader.

Det er en ganske intuitiv idé – dominoeffekten. Hvis du har et problem i starten, kommer det sannsynligvis til å falle når du kommer til den siste dominoen. Det som er bemerkelsesverdig er at det overveldende flertallet av dataforskere rapporterer å ha opplevd et av disse problemene.

Når du prøver å tilskrive hvorfor disse problemene faktisk skjedde, skyldtes det hovedsakelig mangel på anerkjennelse av viktigheten av data i sammenheng med arbeidet med AI, eller mangel på opplæring i domenet, eller at de ikke fikk tilgang til nok spesialiserte data for et spesielt problem de løste.

Det som peker på er at det i maskinlæringsverdenen er flere nyanser enn “gode data” og “dårlige data”. Ettersom datasett er mangefasetterte, med forskjellige undersett som brukes i forskjellige sammenhenger, og forskjellige versjoner utvikler seg, er kontekst nøkkelen for å definere datakvalitet. Innsiktene fra maskinlæring i produksjon fremkaller et fokusskifte fra modell-sentrisk til datasentrisk AI.

Datasentrisk AI er en oppfatning utviklet i Hazy Research, Chris Rés forskningsgruppe i Stanford. Som nevnt er viktigheten av data ikke ny — det er veletablerte matematiske, algoritmiske og systemteknikker for å jobbe med data, som er utviklet gjennom flere tiår.

Det som er nytt er hvordan bygge videre på og undersøke disse teknikkene på nytt i lys av moderne AI-modeller og metoder. For bare noen få år siden hadde vi ikke langlivede AI-systemer eller den nåværende rasen av kraftige dype modeller.

Bli med oss ​​neste uke mens vi fortsetter samtalen med Benaich og Hogarth, for å dekke temaer som språkmodeller, AI-kommersialisering og AI-drevet bioteknologi .:

Big Data

Vertica akselererer dykk i skyen Observe Inc og eventyret om å være en av Snowflakes beste brukere Digital transformasjon er i endring. Her er det neste De beste karrierer du kan starte med en informatikk grad

Relaterte emner:

Teknologi Industri Digital Transformation Robotics Internet of Things Innovation Enterprise Software  George Anadiotis

Av George Anadiotis for Big on Data | 14. oktober 2021 | Tema: Big Data Analytics