Skriven av Tiernan Ray, bidragande författare
Tiernan Ray Bidragande skribent
Tiernan Ray har bevakat teknik och affärer i 27 år.
Fullständig bio den 28 januari 2022 | Ämne: Artificiell intelligens
De flesta människor kan känna igen en katt eller hund i tidig ålder. Ombedd att formulera hur de känner en katt eller en hund, kan en vuxen famla efter en förklaring genom att beskriva erfarenhet, något som “katter uppskattar dig på ett avlägset sätt, men hundar försöker hoppa upp på dig och slicka ditt ansikte.”< /p>
Vi artikulerar inte riktigt vad vi vet, med andra ord.
Signaturprestationen för artificiell intelligens under de senaste två decennierna är att klassificera bilder av bland annat katter och hundar, genom att tilldela bilder till kategorier. Men AI-program förklarar aldrig hur de “vet” vad de förment “vet”. De är den ökända svarta lådan.
En ny innovation från Googles AI-forskare försöker ge ett svar på hur AI kan sådana saker. Det är ett fascinerande ingenjörsprojekt. Det får en också att undra om AI verkligen kan någonting alls.
I forskningsartikeln “Explaining in Style: Training a GAN to explain a classifier in StyleSpace”, som publicerades på arXiv pre-print-server, satte Google Research-forskaren Oran Lang och kollegor igång att omvända utvecklingen av vad som är kallas en klassificerare, ett maskininlärningsprogram som utvecklar en förmåga att automatiskt sortera bilder i kategorier, som “katt” och “hund”.
Deras program, kallat “StylEx”, kan på sätt och vis identifiera de saker som gör att en klassificerare tilldelar ett givet foto till en eller annan kategori, och på sätt som en person kan känna igen – semantiskt signifikanta attribut, med andra ord.
Deras teknik använder ny användning av vad som är känt som ett generativt motståndsnätverk, eller GAN. GAN-metoden, som ursprungligen introducerades av AI-forskaren Yoshua Bengio och hans team vid MILA i Montreal 2014, är en mycket populär typ av program för att producera falska bilder som efterliknar en given stil eller genre.
Dessutom: AI:s etik: Fördelar och risker med artificiell intelligens
GAN-programmet som forskarna använder är ett som heter StyleGAN, introducerat av Tero Karras och kollegor på Nvidia 2019, och uppdaterat 2020 till StyleGAN2. Den kan ta en mängd riktiga bilder av människor, platser och saker och producera övertygande förfalskningar på samma sätt som originalbilden, som du kan se på webbplatsen “den här personen finns inte”, en samling slående realistiska falska huvudbilder .
Det stämmer, GAN:er går i spetsen för fenomenet “djupa förfalskningar”. Poängen är att GAN:er kan producera vilken bild som helst, inklusive falska om än realistiska katt- och hundbilder.
Det viktiga är att StyleGAN2 kan skiftas längs med valfritt antal parametrar, som att få ett ansikte att få en ljusare eller mörkare hy i en huvudbild av en person, eller att få en katts öron att floppa som en hunds eller omvänt en hunds ögon stora och runda som en katts. StyleGAN 2 kan med andra ord leka med vad vi skulle tro är förväntade visuella attribut av något.
Författarna tog StyleGAN2 och de byggde den nya versionen, StylEX, för att leka med bilder som redan hade klassificerats av ett traditionellt program för klassificering av neurala nät, i det här fallet, det ärevördiga neurala nätverket MobileNet. Den klassificeraren klassificerar riktiga bilder av djur från en datauppsättning som kallas “AFHQ”, som introducerades av Yunjey Choi och kollegor på Clova AI Research 2020.
Det är MobileNet som är den svarta lådan de försöker bända upp med StylEx.
Även: AI på sextio sekunder
För att utveckla sitt program gjorde Lang och teamet StylEx till att i huvudsak komprimera bilderna som klassificerades av MobileNet och dekomprimera dem sedan till originalet. Sedan matades de nya, falska versionerna av originalen tillbaka till MobileNet för att se om MobileNet skulle tilldela förfalskningarna samma kategori.
StylEx-programmet producerar falska bilder från ett “generator”-neuralt nätverk. När de matas till en “Classifier” mäter forskarna om förfalskningarna kan vända klassificerarens kategorisering från rätt kategori till fel. Röda konturer visar falska bilder vars attribut har modifierats selektivt och originalen som de baserades på, med procentpoäng, infälld, som visar hur mycket ett givet attribut påverkade kategoriseringen.
Google, 2022
Längs vägen kan StylEx justera de parametrarna, de visuella attributen som en GAN kan manipulera, och se om det slår bort MobileNet. StylEx försöker lura MobileNet, om du så vill.
Tänket är att om StylEx kan skapa en övertygande fejk som MobileNet accepterar, och sedan ytterligare en fejk som förstör MobileNets noggranna kategorisering, så leder interaktionen mellan de två till en insikt om vad det är som MobileNet agerar efter när det klassificerar bilder.
Som författarna uttryckte det, “Vi tränar vårt GAN för att explicit förklara klassificeraren.” (“Träning” är det stadium där ett neuralt näts funktionalitet först utvecklas genom exponering för provdata.)
Den komprimerade versionen av bilden, där StylEx förutser vad det är som MobileNet kommer att svara på, är en del av StylExs “StyleSpace”, ett “disentangled latent space” av en GAN. Det latenta utrymmet är den del av GAN-programmet som separerar de visuella elementen i en bild, till exempel områdena som utgör ögonen på en katt eller tungan på en hund.
Eftersom StylEx manipuleras via reglage – egentligen finns det reglage som kan visa saker som att ögon görs större – stora, ledsna hundvalpögon – eller munnar på katter öppna eller stängda – svarar MobileNet-klassificeraren med ökande eller minskande sannolikhetspoäng för katt eller hund. På det sättet används StylEx som en medicinsk sond för att se vad som händer med MobileNets kategorisering.
Med andra ord, vrid på rattarna för att visa hur förfalskningarna skiljer sig från de verkliga och vad det gör med klassificeringen.
Detta kallas av Lang och kollegor “kontrafaktiska” experiment, som, som de skriver, är “ett uttalande av formen 'Hade ingången x varit x' så skulle klassificerarens utdata ha varit y ̃ istället för y', där skillnaden mellan x och x ̃ är lätt att förklara.”
Begreppet “lätt att förklara” är kärnan i det. Poängen med StylEx är nämligen att identifiera saker i StyleSpace som en människa kan förstå – som “stora ögon”, “viftande tunga” – som förklaring. Detta är en del av rörelsen inom AI mot “förklarlig” AI, saker som öppnar den svarta lådan och berättar för samhället hur maskinen kommer fram till beslut.
Som författarna skriver,
< p>Tänk till exempel en klassificerare som är utbildad för att skilja mellan katt- och hundbilder. En kontrafaktisk förklaring till en bild som klassificeras som en katt skulle kunna vara “Om pupillerna gjordes större, då skulle utmatningen av klassificeraren för sannolikheten för katt minska med 10 %.” En viktig fördel med detta tillvägagångssätt är att det ger per exempel förklaringar, som pekar ut vilka delar av input som är framträdande för klassificeringen och även hur de kan ändras för att få ett alternativt resultat.
För att testa hur förståeligt allt detta är lämnade Lang och kollegor sina kontrafakta för inte bara katter och hundar utan för en hel massa bildklassificeringar, inklusive mänsklig ålder – “gammal” kontra “ung” – och mänskligt kön, till människor som arbetar med Amazon Mechanical Turk-plattformen. De bad dessa personer att beskriva förändringarna i bilderna från äkta till falska. “Användare uppmanas sedan att med 1-4 ord beskriva det enskilt mest framträdande attributet som de ser förändras i bilden.”
Du kan prova det själv genom att besöka webbplatsen Lang och team skapade, med exempel på manipulationerna.
Vilket leder en till frågan, Vad vet MobileNet-klassificeraren? Utan att gå in på den kunskapsteoretiska frågan om vad kunskap egentligen är, visar StylEx-programmet att en MobileNet-klassificerare upprepade gånger kommer att reagera på vissa delar av en bild som kan isoleras, till exempel större eller mindre ögon på en katt eller hund.
Med andra ord, ett neuralnät för klassificerare känner till graden av någon egenskap längs ett kontinuum av grader, stora eller små, ljusa eller mörka.
Men det finns en extra rynka. Som Lang och kollegor fann påverkar deras StylEx-program, när det skapar förfalskningar med ändrade funktioner, i varje fall hur klassificeraren hanterar specifika bilder. Det ordet specifikt är viktigt, eftersom det visar sig att MobileNet-klassificeraren är ganska specifik när det gäller att kategorisera varje bild.
Som författarna skriver, “detta är inte de attribut som har störst genomsnittlig effekt över många bilder, utan snarare de som mest påverkar denna specifika bild.” Varje bild har med andra ord en egenhet, vad gäller klassificeraren. Eller en uppsättning egenheter.
Så klassificeraren söker verkligen något speciellt som betonas i fallet med varje bild, och StylEx-programmet återskapar det där, vare sig det är ögon i det här fallet eller en viftande tunga i så fall. Det är inte klart att sådana bildspecifika aspekter är kunskap. De kan ses som artefakter som klassificeringsprogrammet har använt för att associera en given bild till en given kategori. Det är inte klart att de är gemensamma drag som sträcker sig över bilder, på det sätt som du kan förvänta dig om ett program verkligen känner en katt eller en hund.
Om kunskap rent praktiskt handlar om att namnge saker väcker StylEx intressanta frågor. Namngivningshandlingen, här klassificering, påtvingar ett binärt val, katt eller hund, som programmet svarar på genom att associera ett eller en grupp av element, för att slutföra testet. Huruvida det faktiskt är en del av kunskapen om en bild, i den djupare meningen av det begreppet, förblir en öppen fråga.
Teknikintäkter
Molnintäkter driver Microsofts 51,7 miljarder USD Q2 under räkenskapsåret 2022 IBM slår uppskattningar för Q4, rapporterar 6,2 miljarder USD i hybridmolnintäkter Verizon levererar starka intäkter under fjärde kvartalet, rapporterar 2021-intäkter på 133,6 miljarder dollar American Express överträffar uppskattningarna för fjärde kvartalet, förväntar sig mer tillväxt under 2022 F5 slår Wall Streets förväntningar, varnar för begränsningar i leveranskedjan 2022 Texas Instruments aktie stiger med 6% när Q4 överträffar förväntningarna, prognosen högre också 1Password samlar in 620 miljoner dollar i senaste finansieringsomgången Samsung noterar sin högsta årliga omsättning hittills under 2021 Digital Transformation | CXO | Internet of Things | Innovation | Företagsprogramvara | Smarta städer