Status för AI år 2021: Maskininlärning i produktion, MLOps och datacentrisk AI

0
104

 George Anadiotis

Av George Anadiotis för Big on Data | 14 oktober 2021 | Ämne: Big Data Analytics

Det är den tiden på året igen: Rapporter om AI: s tillstånd för 2021 är ute. För några dagar sedan var det rapporten maskininlärning, artificiell intelligens och data av Matt Turck som ZDNet Big on Data -kollegan Tony Baer täckte. Den här veckan är det State of AI 2021 -rapporten, av Nathan Benaich och Ian Hogarth.

Efter att ha släppt den som förmodligen var den mest omfattande rapporten om AI -tillståndet 2020 kommer Air Street Capital och RAAIS -grundaren Nathan Benaich och AI ängelinvesteraren och UCL IIPP -gästprofessorn Ian Hogarth tillbaka för mer.

I vad börjar bli en uppskattad årlig tradition, kom vi ikapp Benaich och Hogarth för att diskutera ämnen som utmärkte oss i rapporten.

MLOps, maskininlärning i produktion

För det första finns det överlappning med de ämnen som Turck täckte och Baer rapporterade om, och av goda skäl. Som Baer påpekade, våg av börsnoteringar och spridning av enhörningar gör denna marknad till sin egen sektor, och det är omöjligt att ignorera. För en översikt över marknadstrender uppmuntrar vi läsare att titta på Baers täckning.

Som sagt, vår känsla är att State of AI 2021 -rapporten täcker fler ämnen: den senaste utvecklingen inom AI -forskning, industri, talang och politik, medan den också satsar på förutsägelser. Faktum är att Benaich och Hogarth håller koll på sina förutsägelser, och de klarar sig ganska bra. Till exempel förutspådde de 2020 hindren i Arms förvärv av Nvidia och AI och bioteknikrelaterade börsintroduktioner.

Som Benaich noterade, i kraft av att de är investerare i olika för det mesta tidiga stadierna för maskininlärning, har de tillgång till stora AI -laboratorier, akademiska grupper, nya och nystartade företag, större företag och personer som arbetar i regeringen. Så de försöker syntetisera alla de olika vinklarna i en allmänt god produkt som är öppen källkod och som syftar till att holistiskt informera alla intressenter.

Vi valde några övergripande teman som stack ut för oss i rapporten, som vi har identifierade dem också under hela året. Den första är MLOps – konsten och vetenskapen att föra maskininlärning till produktion. Vid operationell AI flyttas tyngden från glänsande nya modeller till kanske mer vardagliga men praktiska aspekter.

Med den ökande kraften och tillgängligheten för maskininlärningsmodeller har vinsterna från modellförbättringar blivit marginella. I detta sammanhang blir maskininlärningsgemenskapen alltmer medveten om vikten av bättre datapraxis och mer allmänt bättre MLOps för att bygga pålitliga maskininlärningsprodukter.

Hazy Research, Stanford

Med den ökande kraften och tillgängligheten för maskininlärningsmodeller har vinsterna från modellförbättringar blivit marginella. I detta sammanhang blir maskininlärningsgemenskapen alltmer medveten om vikten av bättre datapraxis och mer allmänt bättre MLOps för att bygga pålitliga maskininlärningsprodukter.

Benaich noterade att de tyckte att det var viktigt att lyfta fram förnyade uppmärksamhet i mer branschinriktat akademiskt arbete kring datakvalitet och olika frågor som kan ligga inom data som slutligen sprider sig mot ML -modeller, avgör om modeller förutsäger bra eller inte:

“Många akademier fokuserade på att tävla om statiska riktmärken, visa modellprestanda offline på dessa riktmärken och sedan gå in i industrin. Så generation ett handlade mycket om – låt oss bara få en modell som fungerar för ett specifikt problem och sedan hantera eventuella problem eller förändringar när som helst.

Google -forskare definierar datakaskader som “sammansatta händelser som orsakar negativa nedströmseffekter från dataproblem”. Stöds av en undersökning bland 53 utövare från USA, Indien, Öst- och västafrikanska länder, de varnar för att nuvarande praxis undervärderar datakvaliteten och resulterar i datakaskader.

Det är en ganska intuitiv idé – dominoeffekten. Om du har ett problem i början kommer det troligtvis att sjunka när du kommer till den sista dominoen. Det som är anmärkningsvärt är att den överväldigande majoriteten av datavetenskapare rapporterar att de har upplevt ett av dessa problem.

När man försökte tillskriva varför dessa problem faktiskt hände berodde det mest på bristande erkännande av vikten av data inom ramen för deras arbete inom AI, eller brist på utbildning inom domänen, eller att de inte fick tillgång till tillräckligt med specialiserad data för särskilt problem som de löste.

Det som pekar på är att det i maskinlärningsvärlden finns mer nyanser än “bra data” och “dålig data”. Eftersom datamängder är mångfacetterade, med olika delmängder som används i olika sammanhang och olika versioner utvecklas, är sammanhang nyckeln till att definiera datakvalitet. Insikterna från maskininlärning i produktion uppmuntrar till en fokusförskjutning från modellcentrerad till datacentrisk AI.

Datacentrisk AI är ett begrepp som utvecklats i Hazy Research, Chris Rés forskargrupp i Stanford. Som nämnts är vikten av data inte ny — det finns väletablerade matematiska, algoritmiska och systemtekniker för att arbeta med data, som har utvecklats under årtionden.

Det som är nytt är hur man bygga vidare på och granska dessa tekniker mot bakgrund av moderna AI-modeller och metoder. För bara några år sedan hade vi inte långlivade AI-system eller den nuvarande rasen av kraftfulla djupa modeller.

Följ med oss ​​nästa vecka medan vi fortsätter samtalet med Benaich och Hogarth för att täcka ämnen som språkmodeller, AI-kommersialisering och AI-driven bioteknik .:

Big Data

Vertica accelererar dyket in i molnet Observe Inc och äventyret att vara en av Snowflakes bästa användare Digital transformation förändras. Här är vad som kommer nästa De bästa karriärer du kan börja med en datavetenskaplig examen

Relaterade ämnen:

Teknisk industri Digital Transformation Robotics Internet of Things Innovation Enterprise Software  George Anadiotis

Av George Anadiotis för Big on Data | 14 oktober 2021 | Ämne: Big Data Analytics