Der er en ironi omkring Kunstig Intelligens (AI) arbejde: det indebærer en masse manuelt, trial and error forsøg på at bygge prædiktive modeller med den højeste nøjagtighed. Med en tilsyneladende konstant fremkomsten af machine learning og dyb læring rammer, og opdateringer til dem, samt ændringer værktøjsholder-platforme, er det ikke underligt, at så meget AI arbejde er så ad-hoc. Men stadig, hvorfor ville en teknologi, der handler om automatisering inddrage så meget, skræddersyet indsats?
Problemet med alle de manuelle arbejde, er dobbelt: for det første, det gør det næsten umuligt for folk uden uddannelse i data videnskab at gøre AI arbejde, og for det andet, folk med data videnskab baggrunde selv står over for en meget ineffektiv arbejdsgang.
AutoML, redde mig!
At dødvandet er begyndt at klare nu, men med fremkomsten af automatiserede machine learning (AutoML). Et par virksomheder, som DataRobot, specialiserer sig i det. Andre AI nystartede virksomheder, som Dataiku, H20, og RapidMiner, og den etablerede enterprise software virksomheder som Tibco, har bred AI platforme, der har AutoML evner for. Så må de store offentlige cloud-platforme, herunder Microsoft Azure, Amazon Web Services og Google Cloud Platform. Der er open source AutoML rammer så godt, som Auto-sklearn, Auto-Keras og Uber er for nylig open source Ludwig platform.
AutoML ser ud til at være meget mere end et modefænomen. Faktisk, et par mennesker, jeg har talt med i AI markedet tror AutoML kunne være fremtiden for AI samlet. Så længe du har en ren datasæt, og du ved, hvilken kolonne, inden det er “label” (en.k.et mål), jeg.e en hvis værdi, du gerne vil have til at forudsige med nye data, AutoML vil bygge en model til dig med en stor reduktion i indsats. Og, nogle gange, vil du få din model uden ekstra indsats på alle.
Med det i tankerne, jeg tænkte noget af en primer kan være i orden, og dette indlæg er mit forsøg på at give en. Disclaimer: selvom jeg har været en tilhænger af AI siden 80’erne, og en entusiast af data mining-systemer siden slutningen af 90’erne, at jeg ikke er data videnskabsmand. Som sådan, mit ordforråd og forklaringer er ikke pædagogisk autoritative — i nogle tilfælde kan de være naiv. Men hvad jeg har fået her bør hjælpe dig med at forstå AutoML platform kapaciteter, som jeg håber vil hjælpe dig med at vurdere produkter og rammer på markedet.
Trinvis
Til at begynde med, mener, at forståelse AutoML indebærer at blive bekendt med de store opgaver i machine learning workflow. Resten af dette indlæg vil give en oversigt over de opgaver, og forklare, hvilke af dem er almindeligt — eller mindre almindeligt — løses ved AutoML løsninger.
Funktion fungerer: Hvis du har et datasæt og kender din etiket/target kolonne, der er store. Men at finde ud af, hvilke kolonner i dine data, der er relevante for at forudsige brandets værdi, og at få dem i den rette form for machine learning modeller til at behandle, er din næste krav. Efter at du kan vælge de kolonner, du kan også nødt til at konvertere tekst-baserede værdier til numre, tilregner manglende værdier, og ellers rens dem (fx de dubletter af dem, fjern nuller og tomme fra dem, eller fjerne overflødige tegn fra dem).
Ganske vist, hvis du ved at dine data er godt, en masse af dette kan gøres manuelt, selv uden en formel data videnskab uddannelse. Uanset, data forskere vil gøre et bedre job. Det er derfor, mens nogle AutoML platforme kræver, at du angiver dit funktioner, mange vil analysere dine data og forslag til, hvilke kolonner, der ville fungere godt, så du acceptere disse valg, som de er, eller modificere dem.
Algoritme udvalg: dette omfatter bestemme, hvilken type algoritme, bibliotek/ramme til at bruge og den specifikke algoritme af den relevante type, inden for biblioteket. Der er tommelfingerregler for at vælge den type, afhængig af den forudsigelse, at du forsøger at gøre, og den struktur af dine data. Fra der, at vælge en passende algoritme, der kan gøres, selv om upræcist, ved at gætte arbejde.
Men algoritme udvælgelse er, hvor mange AutoML systemer skinne, selv til det punkt, at automatisere en konkurrence mellem forskellige algoritmer, så detaljeret et par afsnit nedenfor.
Hyperparameter tuning: hver algoritme har parametre, der kan indstilles — og en række værdier, der er accepteret for hver af dem — at styre konfigurationen af den algoritme, og hvordan det anvendes til data. Mens der i nogle tilfælde kan du gå med standardværdier, skal du kopiere værdier fra-kode, du finder på nettet (selv om denne kode er for et helt andet problem) eller blot gætte, indstilling hyperparameter værdier er vigtige arbejde, som er på ingen måde ligetil.
Det er derfor stort set alle AutoML rammer omfatter automatiseret hyperparameter tuning…selv hvis de gør det, som nogle brute force-metoden. Kombinere denne evne med den algoritme, udvalg og har valg at mange AutoML systemer også gøre for dig — og pludselig AI bliver tilgængelige for en langt bredere sæt af teknikere.
Beauty contest
Model konkurrence: Mens du har arbejde, algoritme udvalg og hyperparameter tuning kan være gjort af en algoritme, der genererer præcis én kombination af hvert, visse AutoML systemer vil vælge et sæt af kandidater til hver, og derefter opbygge modeller baseret på forskellige kombinationer af disse kandidater. Fra der, at dine modeller er uddannet og testet for at afgøre, hvilken er den mest nøjagtige. Og med nogle AutoML systemer, den variabel, der anvendes til at bestemme nøjagtighed er det konfigurerbar.
Mens den genererede modeller er uddannet, AutoML systemer typisk vise et “leaderboard” af de mest nøjagtige modeller. Når træning er færdig-model på toppen af leaderboardet er, per definition, er den mest nøjagtige model og den, de fleste AutoML brugere vil vælge.
Kunne du gøre konkurrencen ved dig selv? Måske, men de fleste mennesker-herunder data forskere — ikke lyst til at skrive og debug kode, der kræves for at gøre det. Mange AutoML systemer vil gøre det, selv om, der yder en stor hjælp for de data, som forskere og ikke-data forskere så godt. Dette arbejde hjælper med at sikre du får den bedste model muligt.
Bygningen ensembler: at skabe et sæt af modeller, så emballage dem op til at se ud og opføre sig som en enkelt model, er en opgave, som nogle AutoML systemer vil tage på til dig. Internt, hvad der sker, er data, der er sendt til scoring (udførelse forudsigelser om) er at køre gennem alle modeller og så forudsigelse fra hver er tabuleret, og i henhold til en formel eller en anden, en konsensus forudsigelse værdi, der er tilbage.
Ensembler er typisk mere nøjagtig end enkelte modeller, men scorede tager længere tid, da det skal gøres flere gange, og derefter en konsensus, der er forudsagt værdi, der skal beregnes. Meget af dette arbejde kan være parallelized, selvom den ekstra infrastruktur, der kræves for at køre ting i parallel er ikke gratis.
Forsendelse ud
At skabe en model, der gennem AutoML kan være imponerende, men hvis den model er faktisk aldrig brugt, der vil pleje? Der er meget bekymring er, hvorfor nogle AutoML systemer vil også anvende modellen til produktion, og derefter overvåge og styre det, for at opretholde dets nøjagtighed og effektivitet. Lad os slutte med at se på disse opgaver.
Model deployment: Dette indebærer at skabe en konverterbar Web service (næsten helt sikkert REST-baseret) for bedømmelse af nye data i forhold til din model, og derefter indsætte den med at nogle hosting miljø og give dig tilbage et slutpunkt (altså en URL) hvor det kan kaldes. Den service vil blive bygget på en sådan måde, at input-parametre på den service, som svarer til funktionen værdier og returnerer værdien svarer til den forventede label værdi.
Model overvågning: Dette indebærer at holde øje med den model, som kører nye data mod det og se, hvis nøjagtighed er at opretholde sig selv, eller om det er aftagende. Model “drift” – fænomen, hvorved de statistiske egenskaber for etiketten/mål ændrer sig-kan være overvåges. Bemærk, at som med den model, konkurrence, den variabel, der anvendes til nøjagtighed kan variere og er det konfigurerbar.
Model efteruddannelse: Nogle systemer vil omskole modeller på en automatiseret grundlag, enten som svar til nøjagtighed falder under nogle tærskel, eller bare som et spørgsmål om politik, på et bestemt frekvens. Dette er især relevant for modeller, der er bygget på streaming-data. AutoML systemer til at håndtere dette for dig er virkelig at håndtere hele processen, fra start til slut. Dette er banebrydende ting, der er at bringe begrebet kontinuerlig indsættelse til AI.
Hvad er det Næste?
Som du kan se på antallet og kompleksiteten af hvert af disse trin, AI arbejde i sig selv er ikke-triviel, og potentiale til at automatisere mange af de forvirrende eller kedelige dele af det har en masse værdi. AutoML, og derfor kunne være den killer app, der gør AI mainstream i Virksomheden.
Auto ML kan også hjælpe med at skubbe kuvert, således at data forskere til at gå videre til mere komplekse opgaver, der er bygget på toppen af ovenstående trin for at blive automatiseret. AutoML nuværende kapaciteter er virkelig bare en del af en åbning flytte og AutoML kan hjælpe AI sit spil, alt i alt.
Dette er en spændende tid, hvor brugervenlighed og vedtagelse af AI kunne begynde at accelerere dramatisk. Så stay tuned. Nogle af de virksomheder, der blev nævnt i starten af dette indlæg, er at arbejde hårdt på hurtige AutoML innovation.
Relaterede Emner:
Cloud
Digital Transformation
CXO
Tingenes Internet
Innovation
Virksomhedens Software