Hvad ved AI om katte og hunde? Måske meget lidt

0
174

Tiernan RaySkrevet af Tiernan Ray, bidragende forfatter Tiernan Ray Tiernan Ray bidragende skribent

Tiernan Ray har dækket teknologi og forretning i 27 år.

Fuld bio den 28. januar 2022 | Emne: Kunstig intelligens

De fleste mennesker kan genkende en kat eller hund i en tidlig alder. Bedt om at formulere, hvordan de kender en kat eller en hund, kan en voksen famle efter en forklaring ved at beskrive oplevelsen, noget som “katte vurderer dig på en fjern måde, men hunde forsøger at hoppe op på dig og slikke dit ansigt.”< /p>

Vi formulerer ikke rigtig, hvad vi ved, med andre ord.

Signaturpræstationen for kunstig intelligens i de seneste to årtier er klassificering af billeder af katte og hunde, bl.a. ved at tildele billeder til kategorier. Men AI-programmer forklarer aldrig, hvordan de “ved”, hvad de angiveligt “ved”. De er den ordsprogede sorte boks.

En nylig innovation fra Googles AI-forskere søger at give et svar på, hvordan AI ved sådanne ting. Det er et fascinerende ingeniørprojekt. Det får en også til at spekulere på, om AI virkelig ved noget overhovedet.

I forskningsoplægget, “Explaining in Style: Training a GAN to explain a classifier in StyleSpace”, der blev lagt ud på arXiv pre-print serveren, gik Google Research-forskeren Oran Lang og hans kolleger i gang med at lave omvendt udvikling af, hvad der er kaldet en klassificering, et maskinlæringsprogram, der udvikler en evne til automatisk at sortere billeder i kategorier, såsom “kat” og “hund.”

Deres program, kaldet “StylEx”, er i en vis forstand i stand til at identificere de ting, der får en klassifikator til at tildele et givent foto til en eller anden kategori, og på måder, som en person kunne genkende – semantisk betydningsfulde attributter, med andre ord.

Deres teknik anvender ny brug af det, der er kendt som et generativt modstridende netværk eller GAN. GAN-tilgangen, der oprindeligt blev introduceret af AI-forskeren Yoshua Bengio og hans team på MILA i Montreal i 2014, er en meget populær form for program til at producere falske billeder, der efterligner en given stil eller genre.

Også: AI:s etik: Fordele og risici ved kunstig intelligens

GAN-programmet, som forskerne bruger, er et kaldet StyleGAN, introduceret af Tero Karras og kolleger hos Nvidia i 2019 og opdateret i 2020 til StyleGAN2. Det kan tage en række rigtige billeder af mennesker, steder og ting og producere overbevisende forfalskninger på samme måde som det originale billede, som du kan se på webstedet “denne person eksisterer ikke”, en samling af slående realistiske falske hovedbilleder .

Det er rigtigt, GAN'er går i spidsen for fænomenet “deep fakes”. Pointen er, at GAN'er kan producere enhver form for billede, inklusive falske, omend realistiske katte- og hundebilleder.

Det vigtige er, at StyleGAN2 kan flyttes langs et hvilket som helst antal parametre, såsom at få et ansigt til at få en lysere eller mørkere teint i et hovedbillede af en person, eller få en kats ører til at floppe som en hunds eller omvendt en hunds øjne store og runde som en kats. StyleGAN 2 kan med andre ord lege med, hvad vi ville tro er forventede visuelle egenskaber ved noget.

Forfatterne tog StyleGAN2, og de byggede den nye version, StylEX, for at lege med billeder, der allerede var blevet klassificeret af et traditionelt neuralt-netklassificeringsprogram, i dette tilfælde det ærværdige MobileNet neurale netværk. Denne klassificering klassificerer rigtige billeder af dyr fra et datasæt kaldet “AFHQ”, introduceret af Yunjey Choi og kolleger hos Clova AI Research i 2020. 

Det er MobileNet, der er den sorte boks, de søger at åbne med StylEx.

Også: AI på tres sekunder

For at udvikle deres program fik Lang og teamet StylEx til at komprimere billederne klassificeret efter MobileNet, og dekomprimer dem derefter til originalen. Derefter blev de nye, falske versioner af originalerne ført tilbage til MobileNet for at se, om MobileNet ville tildele den samme kategori til falske.

StylEx-programmet producerer falske billeder fra et “generator” neuralt netværk. Når de bliver fodret til en “Classifier”, måler forskerne, om forfalskninger kan vende klassificererens kategorisering fra den rigtige kategori til den forkerte. Røde konturer viser falske billeder, hvis egenskaber er blevet selektivt ændret, og de originaler, som de var baseret på, med procentscore, indsat, der viser, hvor meget en given egenskab påvirkede kategoriseringen.

Google, 2022

Undervejs kan StylEx justere disse parametre, de visuelle attributter, som en GAN er i stand til at manipulere, og se, om det slår MobileNet af. StylEx forsøger at narre MobileNet, om man vil.

Tanken er, at hvis StylEx kan skabe en overbevisende falsk, som MobileNet accepterer, og så endnu en falsk, der ødelægger MobileNets omhyggelige kategorisering, så bringer interaktionen mellem de to en indsigt i, hvad det er, MobileNet handler efter, når det klassificerer billeder.

Som forfatterne udtrykte det, “Vi træner vores GAN til eksplicit at forklare klassificeringen.” (“Træning” er det stadie, hvor et neuralt nets funktionalitet først udvikles ved eksponering for prøvedata.) 

Den komprimerede version af billedet, hvor StylEx anslår, hvad det er, som MobileNet vil reagere på, er en del af StylEx's “StyleSpace”, et “udviklet latent rum” i et GAN. Det latente rum er den del af GAN-programmet, der adskiller de visuelle elementer i et billede, såsom de områder, der udgør en kats øjne, eller en hunds tunge.

Da StylEx manipuleres via skydere – der er faktisk skyderkontroller, der kan vise ting som f.eks. øjne, der gøres større – store, triste hundehvalpeøjne – eller mund på katte åben eller lukket – MobileNet-klassifikatoren reagerer med stigende eller faldende sandsynlighedsscore til kat eller hund. På den måde bliver StylEx brugt som en medicinsk sonde til at se, hvad der sker med MobileNets kategorisering.

Med andre ord, drej på knapperne for at vise, hvordan forfalskninger adskiller sig fra det ægte, og hvad det gør ved klassificering.

Dette kaldes af Lang og kolleger for “kontrafaktisk” eksperimentering, som, som de skriver, er “en udsagn på formen 'Havde input x været x', så ville klassifikatorudgangen have været y ̃ i stedet for y', hvor forskellen mellem x og x ̃ er let at forklare.”

Begrebet “let at forklare” er kernen i det. For, pointen med StylEx er at identificere ting i StyleSpace, som et menneske kunne forstå – som “store øjne”, “loglende tunge” – som forklaring. Dette er en del af bevægelsen i AI mod “forklarlig” AI, ting, der åbner den sorte boks og fortæller samfundet, hvordan maskinen når frem til beslutninger.

Som forfatterne skriver, 

< p>Overvej for eksempel en klassificering, der er uddannet til at skelne mellem katte- og hundebilleder. En kontrafaktisk forklaring på et billede, der er klassificeret som en kat, kunne være “Hvis pupillerne blev gjort større, så ville outputtet af klassificereren for sandsynligheden for kat falde med 10 %.” En vigtig fordel ved denne tilgang er, at den giver per-eksempel forklaringer, der udpeger hvilke dele af input, der er fremtrædende i forhold til klassificeringen, og også hvordan de kan ændres for at opnå et alternativt resultat.

For at teste, hvor forståeligt alt dette er, indsendte Lang og kolleger deres kontrafakta for ikke kun katte og hunde, men for en hel masse billedklassifikationer, inklusive menneskelig alder – “gammel” versus “ung” – og menneskelig køn, til folk, der arbejder på Amazon Mechanical Turk-platformen. De bad disse personer om at beskrive ændringerne i billederne fra ægte til falske. “Brugere bliver derefter bedt om med 1-4 ord at beskrive den mest fremtrædende egenskab, de ser ændre sig i billedet.”

Du kan prøve det selv ved at besøge webstedet Lang og teamet oprettede, med eksempler på manipulationerne.

Hvilket bringer en til spørgsmålet: Hvad ved MobileNet-klassifikatoren? Uden at komme ind på det epistemologiske spørgsmål om, hvad viden egentlig er, viser StylEx-programmet, at en MobileNet-klassifikator gentagne gange vil reagere på nogle elementer i et billede, som kan isoleres, såsom større eller mindre øjne på en kat eller hund.

Med andre ord kender et klassificerende neuralt net til graden af ​​et eller andet træk langs et kontinuum af grader, stor eller lille, lys eller mørk.

Men der er en ekstra rynke. Som Lang og kolleger fandt ud af, påvirker deres StylEx-program, når det skaber forfalskninger med ændrede funktioner, i hvert enkelt tilfælde, hvordan klassificereren håndterer specifikke billeder. Det ordspecifikke er vigtigt, fordi det viser sig, at MobileNet-klassifikatoren er ret specifik til at kategorisere hvert billede.

Som forfatterne skriver, “det er ikke de egenskaber med den største gennemsnitlige effekt på tværs af mange billeder, men derimod dem, der mest påvirker dette specifikke billede.” Hvert billede har med andre ord en særhed, hvad angår klassificeringen. Eller et sæt særheder.

Så klassificereren søger virkelig noget bestemt, der fremhæves i tilfældet af hvert billede, og StylEx-programmet genskaber det noget, hvad enten det er øjne i dette tilfælde eller en logrende tunge i så fald. Det er ikke klart, at sådanne billedspecifikke aspekter er viden. De kan opfattes som artefakter, som klassificeringsprogrammet har brugt til at knytte et givet billede til en given kategori. Det er ikke klart, at de er fællestræk, der strækker sig på tværs af billeder, sådan som du ville forvente, hvis et program virkelig kender en kat eller en hund.

Hvis viden rent praktisk handler om at navngive ting, rejser StylEx interessante spørgsmål. Navngivningshandlingen, her klassificering, pålægger et binært valg, kat eller hund, som programmet reagerer på ved at tilknytte et eller en gruppe af elementer, for at fuldføre testen. Hvorvidt det faktisk er en del af viden om et billede, i den dybere betydning af det begreb, forbliver et åbent spørgsmål.

Teknologisk indtjening

Cloud-indtægter driver Microsofts 51,7 milliarder USD i andet kvartal i regnskabsåret 2022 IBM slår estimater for fjerde kvartal, rapporterer omsætning på 6,2 mia. USD i hybrid cloud Verizon leverer en stærk indtjening i fjerde kvartal, rapporterer omsætning i 2021 på 133,6 milliarder dollar American Express overgår estimater for 4. kvartal, forventer mere vækst i 2022 F5 slår Wall Street-forventningerne, advarer om forsyningskædebegrænsninger i 2022 Texas Instruments-aktien stiger med 6 %, da 4. kvartal topper forventningerne, prognosen er også højere 1Password rejser 620 millioner dollars i seneste finansieringsrunde Samsung registrerer sin højeste årlige omsætning til dato i 2021 Digital Transformation | CXO | Internet of Things | Innovation | Enterprise Software | Smarte byer