Den absurde skjønnheten ved å hacke Nvidias GauGAN 2 AI-bildemaskin

0
172

Tiernan Ray

Av Tiernan Ray | 22. november 2021 | Emne: Kunstig intelligens

zdnet-superb-reporting.png

Skriv inn ordene “ZDNet suveren rapportering” i Nvidias GauGAN 2 AI-program produserer automatisk surrealistiske bilder.

Tiernan Ray/ZDNet/Nvidia

Skriv inn ordene “ZDNet superb reporting” i Nvidias nye kunstig intelligens-demo, GauGAN 2, og du vil se et bilde av det som ser ut som store biter av skumisolasjon som bryter i en innsjø mot et snødekt bakteppe.

Legg til flere ord, for eksempel “ZDNet superb reporting comely,” og du vil se bildet forvandlet til noe nytt, en knapt gjenkjennelig form, kanskje en Formel 1 racerbil som har blitt fordøyd, fortsetter det som ser ut som en vei, foran uskarp utsikt over en menneskeskapt struktur.

zdnet-superb-reporting-comely-3.png

GauGAN 2 produserer en merkelig tolkning av setningen “ZDNet suveren rapportering, hyggelig.”

Tiernan Ray/ZDNet/Nvidia

Rull terningen med en liten knapp av et bilde av to terninger, og du vil, og den samme frasen blir et skummelt, tåkeinnhyllet landskap med en gjespende munn av en slags organisk natur, men helt uidentifiserbar med hensyn til eksakt art. .

zdnet-superb-reporting-comely

Enda et terningkast produserer denne bisarre landskap-pluss-skapningen.

Tiernan Ray/ZDNet/Nvidia

Å skrive fraser er den siste måten å kontrollere GauGAN på, en algoritme utviklet av grafikkbrikkegiganten Nvidia for å vise frem det nyeste innen kunstig intelligens. Det originale GauGAN-programmet ble introdusert tidlig i 2019 som en måte å tegne og få programmet til automatisk å generere et fotorealistisk bilde ved å fylle ut tegningen.

Begrepet “GAN” i navnet refererer til en bred klasse av nevrale nettverksprogrammer, kalt generative adversarielle nettverk, introdusert i 2014 av Ian Goodfellow og kolleger. GAN-er bruker to nevrale nettverk som opererer på kryss og tvers, det ene produserer utdata som det jevnt foredler inntil det andre nevrale nettverket merker utdataene gyldige. Den konkurransedyktige karakteren til frem og tilbake er grunnen til at de kalles “motstridende.”

Nvidia har gjort banebrytende arbeid med å utvide GAN-er, inkludert introduksjonen i 2018 av “Style-GAN”, som gjorde det mulig å generere svært realistiske falske bilder av mennesker. I det arbeidet “lærte” det nevrale nettverket høynivåaspekter av ansikter og også lavnivåaspekter, for eksempel hudtone.

I den originale GauGAN fra 2019 bruker Nvidia en lignende tilnærming, og lar en tegne et landskap som områder, kjent som et segmenteringskart. Disse abstraksjonene på høyt nivå, som innsjøer og elver og felt, ble en strukturell mal, og GauGAN-programmet ville deretter fylle ut det tegnede segmenteringskartet med skjemaer fra den virkelige verden.

Versjon to av programmet har blitt oppdatert for å håndtere språk. Hensikten er at man skal spørre GuaGAN 2 med fornuftige fraser, ting som har med landskap å gjøre, for eksempel “kysten kruser klipper.” GauGAN 2-programmet vil reagere ved å generere en scene med et realistisk utseende som matcher inndataene.

Programmet ble utviklet i sin “treningsfase” ved å bli matet 10 millioner landskapsbilder av høy kvalitet, sier Nvidia, ved å bruke Selene-superdatamaskinen bygget av Nvidia GPU-er.

Et segmenteringskart kan også opprettes automatisk, slik at en for å gå tilbake og redigere layouten til landskapet på den måten den originale GauGAN tillot en å lage.

Som Nvidia beskriver GauGAN 2 i et blogginnlegg, er kombinasjonen av tekst og bilde og segmenteringskart et gjennombrudd i multimodalitet AI:

GauGAN2 kombinerer segmenteringskartlegging, inpainting og tekst-til-bilde generering i en enkelt modell, noe som gjør den til et kraftig verktøy for å lage fotorealistisk kunst med en blanding av ord og tegninger. Demoen er en av de første som kombinerer flere modaliteter – tekst, semantisk segmentering, skisse og stil – innenfor et enkelt GAN-rammeverk. Dette gjør det raskere og enklere å gjøre en artists visjon til et høykvalitets AI-generert bilde.

Den praktiske fordelen, sier Nvidia, er at man kan bruke noen få ord for å få et grunnleggende bilde sammen uten å tegne i det hele tatt, og deretter justere detaljer for å avgrense det endelige resultatet.

Men å legge til ord som ikke har noe med landskap å gjøre, for eksempel «ZDNet», begynner å generere sprø gjenstander som til tider har opprørende freakishness, og til tider forferdelig skjønnhet – avhengig av smak. I terminologien for dyp læring, er de freakish bildene som produseres av tullete fraser et resultat av at programmet må kjempe med språk som er «ute av distribusjon», altså ikke fanget opp i treningsdataene som mates til maskinen. Stillt overfor uforsonlige setninger sliter programmet med å matche et bilde til setningen.

Som man kan se i en serie bilder, produserer “kysten kruset klippene” et veldig trofast bilde til å begynne med. Å legge til kvalifiseringer med frekke ord – sykkel, New York City, navnet Cassandra – begynner å skifte og forme landskapet på merkelige måter.

coast-ripples-cliffs-2.png

Automatisk utdata fra GauGAN2 av uttrykket “kysten kruser klippene.”

Tiernan Ray/ZDNet/Nvidia

Automatisk utgang av GauGAN2 av setningen “kyst krusninger klipper sykkel New York Cassandra drill airplane wisely pneumatic prangende.”

Tiernan Ray/ZDNet/Nvidia

Enda mer interessante ting skjer når alle landskapsordene er fjernet, og lar bare tullet stå igjen. Merkelige, futuristiske landskap eller flerfargede amøber kommer til syne.

cassandra-drill-airplane-wisely-pngt-png

Automatisk utgang fra GauGAN2 for setningen “Cassandra drill airplane klokt pneumatisk prangende.”

Tiernan Ray/ZDNet/Nvidia
ostentatious-2.png

Automatisk utdata fra GauGAN2 for ordet “prangende.”

Tiernan Ray/ZDNet/Nvidia

ostentatious-3.png

Automatisk utdata fra GauGAN2 for ordet “prangende”

Tiernan Ray/ZDNet/Nvidia

Automatisk utdata fra GauGAN2 for uttrykket “klokt pneumatisk prangende.”

Tiernan Ray/ZDNet/Nvidia

wisely-pneumatic-ostentatious-3.png

Automatisk utgang av GauGAN2 for uttrykket “visst pneumatisk prangende.”

Tiernan Ray/ZDNet/Nvidia

Eksperimentet kan tas enda lenger med utvidede fraser som er suggestive uten å være nøyaktig beskrivende. Prøv å mate i første linje til T.S. Eliots dikt The Wasteland, “April er den grusomste måneden, som avler syriner ut av det døde landet.”

Resultatet er noen slående bilder som faktisk er litt passende. Når man kaster terningen, dukker det opp mange varianter av passende landskap, med bare små gjenstander i noen tilfeller.

april-er-den-grusommeste-måneden-avle-syriner-ut-av-det-døde-land-2.png

“April er den grusomste måneden, som avler syriner ut av det døde landet,” TS Eliot, The Wasteland.

Tiernan Ray/ZDNet/Nvidia

april-er-den-grusommeste-måneden-avle-syriner-ut-av-det-døde-land-3.png

Tiernan Ray/ZDNet/Nvidia

Takket være innovasjonene til StyleGAN, er GauGAN i stand til å bruke en stil på bildet, for å i hovedsak betinge utdataene til være i form av et annet bilde, snarere som en mash-up.

Anvendelsen av stil på Eliots dikt forvrenger de trofaste landskapsbildene til det ugjenkjennelige. Nok en gang dukker det opp en hel rekke rare objekter med en slags kvalmende organisk kvalitet for noen av dem, andre bare ødelagte skår av det som en gang var et bilde.

april-er-den-grusommeste-måneden-avle-syriner-ut-av-det-døde-land-8.png

Tiernan Ray/ZDNet/Nvidia

april-er-den-grusommeste-måneden-avle-syriner-ut-av-det-døde-land-5.png

Tiernan Ray/ZDNet/Nvidia

april-er-den-grusommeste-måneden-avle-syriner-ut-av-det-døde-land-14.png

Tiernan Ray/ZDNet/Nvidia

Man kan også sende inn bilder og til og med tegne på GauGAN 2. Å sende inn et gammelt fotografi tatt på Þingvellir, stedet for det gamle islandske parlamentet, gjorde ikke så mye. Bildet forble stort sett utransformert, i begrenset testing.

Et bilde tatt på Þingvellir, stedet for det gamle islandske parlamentet, var stort sett uendret da det ble sendt inn til GauGAN2.

Tiernan Ray

Å legge til ordet “Þingvellir” ga imidlertid et realistisk nok landskap som var i tråd med nettstedet til Þingvellir.

thingvellir.png

GuaGAN2-utgang for ordet “Þingvellir” var i ånden til det eldgamle islandske landskapet.

Tiernan Ray/ZDNet/Nvidia

Legge til ordet ” vulkan” produserte et slående alternativt landskap, mindre realistisk, mer surrealistisk.

GuaGAN2 automatisk utgang for “Vulkanen Þingvellir.”

Tiernan Ray/ZDNet/Nvidia

Å legge til et uforskammet ord, for eksempel “Teknologi”, rystet landskapet ytterligere, og la til merkelige tullfigurer.

thingvellir-technology-2.png

GauGAN2 automatisk utgang for uttrykket “Þingvellir-teknologi.”

Tiernan Ray/ZDNet/Nvidia

I stedet for å sende inn et bilde av et landskap, kan man tegne, slik tilfellet var i den originale GauGAN. Igjen, å velge noe, ikke i tråd med demoen, en tegning ikke av et landskap, men av en persons hode, gir mer interessante resultater. Ansiktet kan re-skinns, om du vil, ved å bruke mash-up-funksjonen. Terningkastet ga interessante variasjoner.

selvportrett.jpg

tegning direkte i GauGAN2.

Tiernan Ray/ZDNet/Nvidia

gaugan-output-jpg-10.png

Tegning av et hode re-skinnet ved å bruke lagfunksjonen i GauGAN2.

Tiernan Ray/ZDNet/Nvidia

gaugan-output-jpg-19.png

Tegning av et hode re-skinnet ved å bruke lagfunksjonen i GauGAN2.

Tiernan Ray/ZDNet/Nvidia

figur>

 Kombinering av tegningen med ordet «Þingvellir» ga subtile endringer, og det samme gjorde ved å legge til flere ord som «vulkan» og «rift». Bildet ble re-skinnet for å ha en slags vulkanlignende tekstur.

selvportrett-plus-thingvellir.png

Tegning av et hode kombinert med ordene “Þingvellir-vulkanrift” og re-skinnet ved å bruke lagfunksjonen i GauGAN2.

Tiernan Ray/ZDNet/Nvidia

Merk at brukergrensesnittet til appen kan være vanskelig å rulle i stasjonære nettlesere. Av en eller annen grunn ser det ut til at det fungerer bedre i en nettleser, for eksempel en iPad.

Kunstig intelligens

GE, Einride avduker den første autonome elektriske lastebilen som opererer på amerikansk jord Alphabets DeepMind-avleggeren bruker AI for oppdagelse av medikamenter Ny burgerbot gjør også kyllingvinger. Hva er AI? Alt du trenger å vite om Artificial Intelligence Developer | Digital transformasjon | CXO | Internet of Things | Innovasjon | Enterprise Software