Tilstanden for AI i 2021: Maskinlæring i produktion, MLOps og datacentrisk AI

0
128

 George Anadiotis

Af George Anadiotis for Big on Data | 14. oktober 2021 | Emne: Big Data Analytics

Det er den tid på året igen: Rapporter om tilstanden for AI for 2021 er ude. Et par dage tilbage var det rapporten Machine Learning, Artificial Intelligence and Data af Matt Turck, som ZDNet Big on Data -kollega Tony Baer dækkede. I denne uge er det rapporten State of AI 2021 af Nathan Benaich og Ian Hogarth.

Efter at have frigivet, hvad der sandsynligvis var den mest omfattende rapport om tilstanden AI i 2020, er Air Street Capital og RAAIS -grundlægger Nathan Benaich og AI -engelinvestor og UCL IIPP -besøgsprofessor Ian Hogarth tilbage for mere.

I hvad er ved at blive en værdsat årlig tradition, indhentede vi Benaich og Hogarth for at diskutere emner, der stod for os i rapporten.

MLOps, maskinlæring i produktion

For det første er der overlapning med de emner, Turck dækkede og Baer rapporterede om, og med god grund. Som Baer påpegede, gør bølgen af ​​børsnoteringer og spredning af enhjørninger dette marked til sin egen sektor, og det er umuligt at ignorere. For at få et overblik over markedstendenser opfordrer vi læsere til at kigge på Baers dækning.

Når det er sagt, er vores fornemmelse, at rapporten State of AI 2021 dækker flere emner: den seneste udvikling inden for AI -forskning, industri, talent og politik, mens den også begiver sig ud af forudsigelser. Faktisk holder Benaich og Hogarth styr på deres forudsigelser, og de klarer sig ganske godt. For eksempel forudsagde de i 2020 forhindringerne i Arms erhvervelse af Nvidia og AI og bioteknologiske IPO'er.

Som Benaich bemærkede, har de i kraft af at være investorer i forskellige for det meste tidlige stadier maskinlæringsvirksomheder adgang til store AI -laboratorier, akademiske grupper, nye og nye virksomheder, større virksomheder samt folk, der arbejder i regeringen. Så de forsøger at syntetisere alle de forskellige vinkler i et offentligt godt produkt, der er open source og har til formål at holistisk informere alle interessenter.

Vi valgte nogle overordnede temaer, der stod for os i rapporten, som vi har identificerede dem også hele året. Den første er MLOps – kunsten og videnskaben i at bringe maskinlæring til produktion. Ved operationel AI skifter vægten fra skinnende nye modeller til måske mere dagligdags, men praktiske aspekter.

Med den stigende effekt og tilgængeligheden af ​​maskinlæringsmodeller er gevinster ved modelforbedringer blevet marginale. I denne kontekst bliver maskinlæringsfællesskabet i stigende grad bevidst om vigtigheden af ​​bedre datapraksis og mere generelt bedre MLOps for at bygge pålidelige maskinlæringsprodukter.

Hazy Research, Stanford

Med den stigende effekt og tilgængeligheden af ​​maskinlæringsmodeller er gevinster ved modelforbedringer blevet marginale. I denne kontekst bliver maskinlæringsfællesskabet i stigende grad bevidst om vigtigheden af ​​bedre datapraksis og mere generelt bedre MLOps for at bygge pålidelige maskinlæringsprodukter.

Benaich bemærkede, at de syntes, det var vigtigt at fremhæve fornyede opmærksomhed i mere branchesindet akademisk arbejde omkring datakvalitet og forskellige spørgsmål, der kan ligge inden for data, der i sidste ende spreder sig til ML -modeller, hvilket afgør, om modeller forudsiger godt eller ej:

“Mange akademier var fokuseret på at konkurrere om statiske benchmarks, vise modelydelse offline på disse benchmarks og derefter flytte ind i industrien. Så generation et handlede meget om – lad os bare få en model, der fungerer til et specifikt problem, og derefter håndtere eventuelle problemer eller ændringer, hver gang de sker.

Google -forskere definerer datakaskader som “sammensatte begivenheder, der forårsager negative nedstrømsvirkninger fra dataproblemer”. Understøttet af en undersøgelse blandt 53 praktiserende læger fra USA, Indien, Øst- og vestafrikanske lande advarer om, at den nuværende praksis undervurderer datakvaliteten og resulterer i datakaskader.

Det er en ret intuitiv idé – dominoeffekten. Hvis du har et problem i starten, vil det sandsynligvis falde, når du kommer til den sidste domino. Det bemærkelsesværdige er, at det overvældende flertal af dataforskere rapporterer at have oplevet et af disse problemer.

Når man forsøgte at tilskrive, hvorfor disse spørgsmål rent faktisk skete, skyldtes det mest manglende erkendelse af vigtigheden af ​​data inden for rammerne af deres arbejde inden for AI eller mangel på uddannelse inden for domænet eller ikke at få adgang til nok specialiserede data til særligt problem, de løste.

Det, der peger på, er, at der i maskinlæringsverdenen er mere nuance end “gode data” og “dårlige data”. Da datasæt er mangefacetterede, hvor forskellige undersæt bruges i forskellige sammenhænge og forskellige versioner udvikler sig, er kontekst nøglen til at definere datakvalitet. Indsigterne fra maskinlæring i produktionen tilskynder til et fokusskift fra model-centreret til datacentrisk AI.

Datacentrisk AI er en forestilling udviklet i Hazy Research, Chris Rés forskningsgruppe i Stanford. Som bemærket er vigtigheden af ​​data ikke ny — der er veletablerede matematiske, algoritmiske og systemteknikker til at arbejde med data, som er blevet udviklet gennem årtier.

Det nye er, hvordan man bygge videre på og undersøge disse teknikker i lyset af moderne AI-modeller og metoder. For bare et par år siden havde vi ikke langlivede AI-systemer eller den nuværende race af kraftige dybe modeller.

Kom med os i næste uge, mens vi fortsætter samtalen med Benaich og Hogarth for at dække emner som sprogmodeller, AI-kommercialisering og AI-drevet bioteknologi .:

Big Data

Vertica accelererer springet ned i skyen Observe Inc, og eventyret om at være en af ​​Snowflakes bedste brugere Digital transformation ændrer sig. Her er, hvad der kommer næste gang De bedste karrierer, du kan starte med en datalogi grad

Relaterede emner:

Teknologi Industri Digital Transformation Robotics Internet of Things Innovation Enterprise Software  George Anadiotis

Af George Anadiotis for Big on Data | 14. oktober 2021 | Emne: Big Data Analytics