För det mesta tycks artificiell intelligens leva i två inbördes uteslutande riken, antingen i den akademiska världen där fantastiska intellektuella genombrott inträffar, eller i den industriella världen där fokus bara är att hålla allt igång i tid.
Det finns dock antydningar om att en slags korsbestämning kan uppstå mellan de två världarna, när ett problem i den industriella miljön för maskininlärning kan väcka spännande teoretiska frågor.
“Det här är ett problem vi snubblat över som vi aldrig skulle ha tänkt på i våra akademiska kontor”, säger Stefano Soatto, som är vice president för AI -tillämpad vetenskap vid Amazons AWS molntjänst för moln.
Också: AI för AI: Fördelar och risker med artificiell intelligens
Soatto sträcker sig över AI: s två miljöer. Samtidigt som han driver tillämpad AI vid Amazon AWS är han också professor i datavetenskap vid UCLA, vilket ger honom en privilegierad position att delta i akademisk grundforskning om AI. Soattos kontor är fysiskt på Caltech campus, där han tog sin doktorsexamen.
Problemet Soatto beskrev för ZDNet, i en intervju via Amazon Chime, skulle låta bekant för alla CIO eller utvecklare som inte är en AI -expert och som måste hantera produktionshickar.
” Det finns några mycket konstiga och fascinerande fenomen “som uppstår i vardagliga kundfrågor , säger Stefano Soatto, som är Amazon AWS chef för tillämpad AI och även professor i datavetenskap vid UCLA.
Amazon AWS
“Detta uppstod faktiskt från en eskalering med en kund”, erinrade Soatto. När ett artificiellt intelligensprogram sätts i produktion är det en del i en hel kedja av datorprocesser. Med djupa inlärningsformer av AI kan programvarans värden förändras när nya och förbättrade versioner produceras. Det kan bryta saker i processkedjan och orsaka huvudvärk för kunden.
“I verkligheten är detta bara en mycket liten del av ett produktionssystem”, förklarade Soatto, med hänvisning till ett AI -program som en bildklassificerare. I kundklagomålet, berättade han, var den nya tekniken att bryta saker som kunden använde som var mycket äldre. “Kunderna kom tillbaka och sa,” vi hade problem med din modell “, och vi insåg att de använder en modell från fyra år sedan!”
Så började en strävan från Soatto och kollegor till ett nytt utforskningsområde, hur man gör nya AI -program kompatibla med sina föregångare.
Det kundklagomålet ledde till ett papper i juni förra året, presenterat vid CVPR -konferensen, en samling akademiker som studerar datorsyn. Soatto och team närmade sig kompatibilitetsfrågan som ett problem med tillfredsställelse och tillfredsställelse, tog ett neuralt nät och bad det ha garantier utöver att bara vara korrekta i att göra förutsägelser.
Amazon AWS
Specifikt frågade de om den nya versionen av ett neuralt nät kunde bli mer exakt utan att införa nya fel. Tänk på en klassificerare av katter och hundar: om det nya neurala nätet blir bättre totalt sett, men plötsligt felkategoriserar några bilder på katter eller hundar som den gamla fick rätt, är det ingen bra avvägning. Att göra ett misstag där ett tidigare program var bra kallas en “negativ vändning”.
I tidningen “Positiv-kongruent träning: mot regressionsfria modelluppdateringar” löser Soatto och kollegor problemet med begränsningstillfredsställelse att minska sådana negativa vändningar genom att sätta målet på ett nytt sätt. De tog den traditionella objektivfunktionen, den så kallade korsentropiförlusten, som styr hur väl det neurala nätet förutspår katten eller hunden, och de lade till det en andra objektivfunktion, vilket krävde att det neurala nätet skulle se till att göra det bra på samma förutsägelser blev det gamla neurala nätet rätt.
Förflyttade sig bortom en enda objektiv funktion, i stället för att framställa frågan som att lösa ett problem med tillfredsställelse-tillfredsställelse, uppfann Soatto och team ett nytt område med tillämpat djupinlärning, som de har döpt till “Graceful AI”.
Namnet är ett paraplybegrepp som inkapslar principen att det finns flera mål i ett problem.
“De modeller vi utvecklar måste spela snyggt med allt omkring dem, inte bara träna den bästa modellen du kan”, säger Soatto. Ett annat sätt att se på det är att “respektera kriterier utöver att bara optimera för prestanda”.
Tidningen visar att det akademiska fokuset på att producera det högst presterande AI -programmet inte är det enda sättet att komma fram till riktigt intressanta problem, berättade Soatto för ZDNet.
Också: AI på sextio sekunder
“Som akademiker lägger du större delen av din tid på att försöka hitta på problem som inte finns”, konstaterade Soatto. “Mycket sällan har du tur och du hamnar med något som är användbart för världen.”
När du är på AWS däremot “blir du ständigt utsatt och bombarderas med verkliga problem som är fascinerande som inte har någon lösning.”
Det positivt-kongruenta arbetet började 2018 och den första lösningen som kom fram till togs i bruk i AWS 2020 och körs för närvarande i AWS-molnet. Aspekter av forskningen används i AWS -produkter som Amazon Comprehend, Amazon Lex, Amazon Rekognition och Amazon Textract, säger Soatto.
Det praktiska resultatet är att “alla [AWS] -kunder som använder en av dessa modeller vet att de från och med nu kommer att kunna inta eventuella efterföljande förbättringar utan att behöva ändra någon efterbehandling . ”
Enligt Soattos uppfattning är varje kundklagomål ett tillfälle att förstå vad som kan vara spännande frågor, sa han. När ett kundklagomål kommer upp, “Det finns något att förstå, något fungerar inte som vi trodde.”
I fallet med positiv kongruent sa han: “vi stannade och frågade: Varför tränar vi inte modeller som är kompatibla med det som omger dem?”
Det finns ett utbyte här för ren forskning. Den praktiska frågan öppnade dörren till djupare frågor som berör teoretiska frågor, till exempel varför maskininlärning är eller inte kan generalisera bortom utbildningsdata.
“Elefanten i rummet för maskininlärning är att du verkligen inte bryr dig om hur du gör i träningsuppsättningen eftersom du aldrig någonsin kommer att se den igen”, säger Soatto. “Det du bryr dig om är ett litet antal fel i testuppsättningen, som avlägsnas och du inte ser det.”
“Skismen” mellan de två handlar om vad som kallas induktiva fördomar, det som “förbinder testdata som du inte har tillgång till och utbildningsdata.”
Det leder i sin tur till hela forskningsområdet inom AI -området för det som kallas representationslärning, något Amazon har arbetat med i många år, säger Soatto.
“Det här är ett problem som har varit öppet och besatt oss i decennier”, sa han. Det går tillbaka till farfäderna till AI, Alan Turing och Norbert Wiener. Mysteriet med AI -program är en gåta: “Du kan inte skapa information genom att tortera data, men allt vi gör med data torterar data – vi gör saker för det.”
Teoretiska frågor om inlärningsrepresentationer kommer till kärnan i vad forskaren Claude Shannon teoretiserade som informationens natur, sa Soatto, till exempel, Vilka representationer är optimala för en uppgift, när det gäller att vara maximalt informativ?
På den poängen “finns det några väldigt konstiga och fascinerande fenomen”, säger Soatto.
Det positivt-kongruenta arbetet och annan forskning som Soatto och team har tagit fram delar vissa teman. I synnerhet är det en ström som går igenom likvärdighetsverken, frågan om vad som gör två neurala nät lika eller olika för en given uppgift.
AI -teamets projekt handlar ibland om att söka efter neurala nät som har en överlappning, trots skillnader. Överlappningens exakta karaktär kanske inte alltid är tydlig, men ändå lockande.
Till exempel testade Soatto och team i det positivt-kongruenta papperet vad som händer när gamla och nya nätverk utvecklas som ensembler, grupper av liknande neurala nät med varierande hyperparametrar. De fann att de kunde “framtidssäkra” gamla neurala nät på ett sätt, eftersom ensemblen av gamla neurala nät kollektivt hade mindre avvikelse från de nya neurala näten när det gäller exempel som gick fel.
“Ensembler är mycket intressanta”, säger Soatto. “Vi har inte löst det helt.”
I ett annat stycke, “Kompatibilitetsmedveten heterogen visuell sökning”, frågar Soatto och kollegor om det är möjligt att utveckla neurala nät som är mer effektiva i beräkningsbehov samtidigt som de ger upp minsta möjliga noggrannhet. De använder ett populärt tillvägagångssätt för att automatiskt designa neurala nät, kallade “neural architecture search”, och de ställer ett annat problem med tillfredsställelse: det nya nätverket måste vara “kompatibelt” med ett befintligt neuralt nät. Ett mindre neuralt nät kan spara på bearbetning så länge det ger en representation som är kompatibel med ett större neuralt nätverk (större när det gäller antalet parametrar.
Soatto och kollegor har också inverterat frågan om likhet mellan neurala nät genom att till exempel fråga vad som händer med ett neuralt nät om ett givet urval av data utelämnas. I artikeln “Estimating Informativeness Of Proves With Smooth Unique Information” definierar de informationsvärdet för ett enda prov i en datamängd genom att fråga hur viktvärdena för ett neuralt nät är olika med och utan den individuella datapunkten.
Återigen har arbetet flera teoretiska konsekvenser. Det pekar vägen mot möjliga gränser för generaliseringsförmågan hos ett neuralt nät, det vill säga hur väl det kan tillämpas på nya exempel utöver träningsdata när man gör förutsägelser i den verkliga världen. Och arbetet kan ge insikt om hur mycket information som kan “läcka ut” från ett neuralt nät eller avslöjas om ett visst exempel. Den teoretiska frågan är också en avgörande praktisk fråga när det gäller integritet eftersom läckt information potentiellt kan de-anonymisera enheter i en datamängd.
Mycket av det graciösa AI -arbetet har gjorts med datorsynstyper av problem, även om Soatto noterar “ramen är allmän, så övervägandena gäller andra former av arkitekturer.”
Alla dessa undersökningar av saker som bakåtkompatibilitet berör ett brett område av fortsatt utforskning, känt som “kontinuerligt lärande”. Den utmaningen är “fortfarande ett öppet problem”, säger Soatto.
Den stadiga publiceringstakten av Soatto och kollegor är en förändring för Amazon, som inte alltid var till förlagsvetenskap. “När jag gick med var Amazon inte synlig som bidragsgivare till det öppna vetenskapssamhället” sa han. “Det har ändrats.”
Numera måste varje forskare som arbetar på Amazon publicera och presentera, både för att bli granskad och för att bidra.
“Vi vill få en möjlighet att arbeta med nya problem som är verkningsfulla och meningsfulla och hamnar i händerna på tusentals utvecklare,” sa han. “Vi anställer människor så att vi kan få dem utsatta för verkliga problem som inte har någon lösning”, sa han. “Här har vi människor som går med i vårt team och på sex månader är deras arbete i händerna på tiotusentals människor”, något som är okänt för de flesta forskare.
Korsbestämningen är vettig för Amazon, som finansierar program på Caltech och andra många akademiska institutioner som en del av att odla talanger inom AI.
“Amazon inser vikten av att bilda nästa generations talang”, sa han. “Om tech anställer alla professorer, vem ska då bilda nästa studenter?” frågade han retoriskt.
Även om den positiv-kongruenta utbildningen har implementerats i AWS, erkänner Soatto och team de spännande frågorna som inte är helt besvarade.
I slutet av tidningen skriver Soatto och kollegor att den nya utbildningen fortfarande innebär knepiga avvägningar. Den bästa lösningen, ensemblerna, är opraktisk när man gör live -förutsägelser. Men det enklare tillvägagångssättet, känt som fokaldestillation, medför en viss ökning av felfrekvensen, vilket är oönskat.
Papperet avslutas med förbehållet om att författarna “bara har repat ytan” av PC -utbildning. Mer arbete återstår att göra.
Så spännande som de teoretiska konsekvenserna kan vara, är Soatto snabb att betona det praktiska. Målet är vad Amazon kallar “kundbesatt forskning”, sa han.
“Det här är inte hypotetiska akademiska frågor”, säger Soatto, “Det här är frågor som, om vi lyckas ta itu med dem, verkligen kommer att förenkla livet för kunder och utvecklare som behöver infoga dessa modeller i deras pipeline. ”
Relaterade ämnen:
Enterprise Software Digital Transformation CXO of Things Internet Innovation Smart Cities