AutoML är att demokratisera och förbättra AI

0
124

Det är en ironi kring Artificiell Intelligens (AI) arbete: det är ett mycket handbok, trial and error försök att bygga prediktiva modeller med högsta precision. Med en till synes ständig uppkomsten av maskininlärning och djupt lärande ramar och uppdateringar till dem, liksom förändringar tooling plattformar, är det inte konstigt att så mycket AI arbete är så ad hoc. Men fortfarande, varför skulle en teknik som handlar om automation innebär så mycket skräddarsydd insats?

Problemet med allt det manuella arbetet är dubbelt: för det första, det gör det nästan omöjligt för människor utan utbildning i data-vetenskap att göra AI arbete, och för det andra, människor med data vetenskap bakgrunder sig inför ett mycket ineffektivt arbetsflöde.

AutoML, rädda mig!

Att dödläget börjar rensa nu, men med framväxten av automatiserad maskin lärande (AutoML). Ett fåtal företag, som DataRobot, är specialiserade på det. Andra AI-startups, som Dataiku, H20, och RapidMiner, och etablerade företag mjukvaruföretag som Tibco, har bred AI plattformar som har AutoML kapacitet för. Så gör de stora offentliga moln plattformar, inklusive Microsoft Azure, Amazon Web Services och Google Cloud Platform. Det är öppen källkod AutoML ramar, som Auto-sklearn, Auto-Keras och Uber nyligen öppen källkod-Ludwig plattform.

AutoML ser ut att vara mycket mer än en modefluga. I själva verket är ett par personer som jag har pratat med i AI marknaden tror AutoML skulle kunna vara framtiden för AI generellt. Så länge du har en ren data och du vet vilken kolumn i det “label” (en.k.ett mål), jag.e en vars värde du vill att förutsäga med nya data, AutoML kommer att bygga en modell för dig med en minskning som är i arbete. Och, ibland, kommer du att få din modell utan extra ansträngning alls.

Med detta i åtanke, jag trodde att något av en primer kan vara i ordning, och det här inlägget är mitt försök till att ge en. Disclaimer: även om jag har varit en anhängare av AI sedan 80-talet, och en entusiast av data mining-system sedan slutet av 90-talet, jag är inte en data scientist. Mina ord och förklaringar är inte pedagogiskt auktoritativa — i vissa fall kan de vara naiv. Men vad jag har här bör hjälpa dig att förstå AutoML plattform kapacitet, vilket jag hoppas kommer att hjälpa dig att bedöma produkter och ramar på marknaden.

Stegvis

Till att börja med, anser att förstå AutoML innebär att bli bekant med de stora uppgifter i machine learning arbetsflöde. Resten av det här inlägget kommer att ge en inventering av dessa uppgifter, och förklara vilka som är vanligt — eller mindre vanligt — upp av AutoML lösningar.

Funktionen fungerar: Om du har en uppsättning data och vet din etikett/mål kolumnen, det är bra. Men att räkna ut vilka kolumner i din data som är relevanta för att förutsäga etikett värde, och få dem i rätt form för modeller för att bearbeta, är din nästa krav. Efter du välja de kolumner du kanske även behöver konvertera text-baserade värden till siffror, tillräknar värden som saknas och annat rengör dem (t ex de-duplicera dem, ta bort nulls och blanksteg från dem, eller ta bort främmande tecken från dem).

Visserligen, om du vet att din data jo, en hel del av detta kan göras manuellt, även utan formella uppgifter naturvetenskaplig utbildning. Oavsett, data forskare kommer att göra ett bättre jobb. Det är därför, medan vissa AutoML plattformar kräver att du anger dina funktioner, många kommer att analysera dina data och föreslå vilka kolumner som skulle fungera väl, så att du accepterar dessa val som det är, eller ändra dem.

Algoritm urval: detta inkluderar att bestämma vilken typ av algoritm, bibliotek/ram att använda och specifik algoritm av lämplig typ, inom biblioteket. Det finns tumregler för att välja den typ, beroende på vilken prognos du försöker göra och struktur för dina data. Från det att plocka en lämplig algoritm som kan göras, även om oprecist, genom att gissa.

Men algoritm urval är där många AutoML system glans, även till den grad att automatisera en konkurrens mellan flera algoritmer, som beskrivs några punkter nedan.

Hyperparameter tuning: varje algoritm har parametrar som kan ställas in — och en rad värden som accepteras för var och en av dem-för att kontrollera konfigurationen av den algoritm och hur det appliceras på data. Medan det i vissa fall kan du gå med förvalda värden, kopiera värden från koden som du hittar på nätet (även om den koden för ett helt annat problem) eller helt enkelt gissa, inställning hyperparameter värderingar är ett viktigt arbete som är på intet sätt enkel.

Det är därför praktiskt taget alla AutoML ramarna omfattar automatiserade hyperparameter tuning…även om de gör det av några brute force-metoden. Kombinera denna funktion med algoritmen urval och har urval som många AutoML system också göra för dig-och plötsligt AI blir tillgänglig för en mycket bredare uppsättning av tekniker.

Beauty contest

Modell tävling: Medan funktionen att fungera, algoritm urval och hyperparameter inställning kan göras algoritmiskt, generera exakt en kombination av vardera, vissa AutoML system kommer att plocka en uppsättning kandidater för varje, och sedan bygga modeller som bygger på olika kombinationer av dessa kandidater. Från det, dina modeller utbildas och testas för att avgöra vilken som är den mest korrekta. Och med några AutoML system, det mått som används för att bestämma noggrannheten är konfigurerbar.

Medan de genererade modellerna är utbildade, AutoML system normalt visa ett “topplistan” av den mest korrekta modeller. När all utbildning är klar, modellen på toppen av leaderboard är, per definition, den mest korrekta modellen och en av de mest AutoML användare kommer att välja.

Kan du göra tävlingen själv? Kanske, men de flesta människor-inklusive data forskare-inte vill skriva och felsöka koden som krävs för att göra det. Många AutoML system kommer att göra det, men ger ett viktigt stöd till data forskare och icke-data forskare. Sådant arbete hjälper till att säkerställa att du får den bästa modellen är möjligt.

Byggnaden ensembler: skapa en uppsättning av modeller, för att sedan packas upp för att se ut och bete sig som en enda modell, är en uppgift som i vissa AutoML system kommer att ta för dig. Internt, vad som händer är att data som skickas för poängsättning (verkställande förutsägelser om) är att köra igenom alla de modeller och sedan förutsägelsen från var och en är i tabellform och enligt en formel eller en annan, en konsensus prognos värde returneras.

Ensembler är vanligtvis mer exakt än enstaka modeller men poäng tar längre tid, eftersom det måste göras flera gånger och sedan ett samförstånd förväntade värdet ska beräknas. Mycket av detta arbete kan vara parallelized, trots de extra infrastruktur som krävs för att köra saker parallellt är inte gratis.

Frakten ut

Skapa en modell genom AutoML kan vara imponerande, men om modellen är aldrig egentligen används, vem bryr sig? Att mycket oro är varför vissa AutoML system kommer också att använda modellen för att produktion, och sedan övervaka och hantera det, för att behålla sin noggrannhet och effektivitet. Låt oss avsluta med att titta på dessa uppgifter.

Modell distribution: Detta handlar om att skapa en callable Web service (nästan säkert REST-baserat) för poängsättning nya data mot din modell, för att sedan distribuera det till en del hosting miljön och ge dig tillbaka en slutpunkt (dvs en URL) där det kan kallas. Tjänsten kommer att vara byggt på ett sådant sätt att den ingående parametrar på tjänsten motsvarar funktionen värden och returnera ett värde som motsvarar den förväntade etikett värde.

Modell för uppföljning: Detta innebär att hålla ett öga på modellen, genom att köra nya data mot det och se om noggrannheten är att upprätthålla sig självt, eller om den minskar. Modell “drift” – fenomen som innebär att den statistiska egenskaper hos label/target förändring-kan övervakas. Observera att, precis som med den modell konkurrens, det mått som används för noggrannhet kan variera och är konfigurerbar.

Modell omskolning: Vissa system kommer att omskola modeller på ett automatiserat, antingen som svar på noggrannhet sjunker under vissa tröskelvärden, eller bara som en fråga om politik, vid en viss bestämd frekvens. Detta är särskilt relevant för modeller som bygger på strömmande data. AutoML system som hanterar detta för du är verkligen som hanterar hela processen, end-to-end. Detta är banbrytande saker som är att begreppet kontinuerlig utbyggnad till AI.

Vad är Nästa steg?

Som du kan se från antalet och komplexiteten i vart och ett av dessa steg, AI arbetet i sig är icke-trivialt, och potentialen för att automatisera många av de förvirrande eller tråkiga delarna av det har ett stort värde. AutoML, och därför kunde vara killer app som gör AI ordinarie i Företaget.

Auto ML kan också hjälpa till att tänja på gränserna, vilket gör att data för forskare att gå vidare till mer komplicerade uppgifter som bygger på toppen av stegen ovan för att vara automatiserad. AutoML nuvarande kapacitet är egentligen bara en del av en öppning flytta och AutoML kan hjälpa AI upp sitt spel totalt.

Det är en spännande tid, där användbarhet och antagandet av AI kan börja att öka dramatiskt. Så håll ögonen öppna. Några av de företag som nämns i början av detta inlägg är att arbeta hårt på att snabbt AutoML innovation.

Relaterade Ämnen:

Cloud

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem