Den absurde skønhed ved at hacke Nvidias GauGAN 2 AI-billedmaskine

0
150

Tiernan Ray

Af Tiernan Ray | 22. november 2021 | Emne: Kunstig intelligens

zdnet-superb-reporting.png

Indtastning af ordene “ZDNet fremragende rapportering” i Nvidias GauGAN 2 AI-program producerer automatisk surrealistiske billeder.

Tiernan Ray/ZDNet/Nvidia

Indtast ordene “ZDNet superb reporting” i Nvidias nye kunstig intelligens-demo, GauGAN 2, og du vil se et billede af, hvad der ligner store stykker skumisolering, der brydes i en sø mod en sneklædt baggrund.

Tilføj flere ord, såsom “ZDNet superb reporting comely”, og du vil se billedet forvandlet til noget nyt, en knap genkendelig form, måske en Formel 1 racerbil, der er blevet fordøjet, og fortsætter hvad der ligner en vej, foran sløret udsigt over en menneskeskabt struktur.

zdnet-superb-reporting-comely-3.png

GauGAN 2 producerer en mærkelig fortolkning af sætningen “ZDNet superb reporting comely.”

Tiernan Ray/ZDNet/Nvidia

Kast terningerne med en lille knap af et billede af to terninger, og du vil, og den samme sætning bliver et uhyggeligt, tågeindhyllet landskab med en gabende mund af en slags organisk natur, men fuldstændig uidentificerbar med hensyn til dens nøjagtige art .

zdnet-superb-reporting-comely

Endnu et terningkast frembringer dette bizarre landskab-plus-væsen.

Tiernan Ray/ZDNet/Nvidia

At skrive sætninger er den seneste måde at styre GauGAN på, en algoritme udviklet af grafikchipgiganten Nvidia for at fremvise det nyeste inden for kunstig intelligens. Det originale GauGAN-program blev introduceret i begyndelsen af ​​2019 som en måde at tegne og få programmet til automatisk at generere et fotorealistisk billede ved at udfylde tegningen.

Udtrykket “GAN” i navnet refererer til en bred klasse af neurale netværksprogrammer, kaldet generative adversarielle netværk, introduceret i 2014 af Ian Goodfellow og kolleger. GAN'er bruger to neurale netværk, der fungerer på kryds og tværs, hvoraf det ene producerer output, som det støt forfiner, indtil det andet neurale netværk mærker outputtet som gyldigt. Den konkurrencemæssige karakter af frem og tilbage er grunden til, at de kaldes “modstridende.”

Nvidia har udført banebrydende arbejde med at udvide GAN'er, herunder introduktionen i 2018 af “Style-GAN”, som gjorde det muligt at generere yderst realistiske falske billeder af mennesker. I det arbejde “lærte” det neurale netværk aspekter på højt niveau af ansigter og også aspekter på lavt niveau, såsom hudfarve.

I den originale GauGAN fra 2019 bruger Nvidia en lignende tilgang, hvor man lader en tegne et landskab som områder, kendt som et segmenteringskort. Disse abstraktioner på højt niveau, såsom søer og floder og marker, blev en strukturel skabelon, og GauGAN-programmet ville derefter udfylde det tegnede segmenteringskort med former fra den virkelige verden.

Version to af programmet er blevet opdateret til at håndtere sprog. Hensigten er, at man vil tilskynde GuaGAN 2 med fornuftige sætninger, ting, der vedrører landskaber, såsom “kysten kruser klipper.” GauGAN 2-programmet vil reagere ved at generere en scene med et realistisk udseende, der matcher det input.

Programmet blev udviklet i sin “træningsfase” ved at blive fodret med 10 millioner højkvalitets landskabsbilleder, siger Nvidia, ved hjælp af Selene-supercomputeren bygget af Nvidia GPU'er.

Et segmenteringskort kan også oprettes automatisk, hvilket giver mulighed for en for at gå tilbage og redigere layoutet af landskabet på den måde, den oprindelige GauGAN tillod en at skabe.

Som Nvidia beskriver GauGAN 2 i et blogindlæg, er kombinationen af ​​tekst og billede og segmenteringskort et gennembrud i multi-modalitet AI:

GauGAN2 kombinerer segmenteringskortlægning, inpainting og tekst-til-billede generering i en enkelt model, hvilket gør det til et kraftfuldt værktøj til at skabe fotorealistisk kunst med en blanding af ord og tegninger. Demoen er en af ​​de første til at kombinere flere modaliteter – tekst, semantisk segmentering, skitse og stil – inden for en enkelt GAN-ramme. Dette gør det hurtigere og nemmere at omdanne en kunstners vision til et højkvalitets AI-genereret billede.

Den praktiske fordel, siger Nvidia, er, at man kan bruge nogle få ord til at få et grundlæggende billede sammen uden at tegne overhovedet og derefter justere detaljer for at forfine det endelige output.

Men tilføjelse af ord, der ikke har noget at gøre med landskaber, såsom “ZDNet”, begynder at generere skøre artefakter, der til tider har oprørende freakishness og til tider rystende skønhed – afhængigt af din smag. I terminologien for dyb læring er de freakish billeder produceret af nonsens-fraser et resultat af, at programmet skal kæmpe med sprog, der er “ude af distribution”, hvilket betyder, at det ikke er fanget i træningsdataene, der sendes til maskinen. Stillet over for uforsonlige sætninger, kæmper programmet for at matche et billede til sætningen.

Som det kan ses på en række billeder, producerer “kysten krusning af klipper” et meget trofast billede i starten. Tilføjelse af kvalifikationer med uforskammede ord – cykel, New York City, navnet Cassandra – begynder at skifte og forme landskabet på mærkelige måder.

coast-ripples-cliffs-2.png

Automatisk output fra GauGAN2 af sætningen “kysten kruser klipper.”

Tiernan Ray/ZDNet/Nvidia

Automatisk output af GauGAN2 af sætningen “kyst kruser klipper cykel New York Cassandra borefly klogt pneumatisk prangende.”

Tiernan Ray/ZDNet/Nvidia

Endnu mere interessante ting sker, når alle landskabsordene er fjernet, så kun vrøvlerne efterlades. Mærkelige, futuristiske landskaber eller flerfarvede amøber kommer til syne.

cassandra-drill-airplane-atumatic-wisely-png-png

Automatisk output fra GauGAN2 for sætningen “Cassandra bore flyvemaskine klogt pneumatisk prangende.”

Tiernan Ray/ZDNet/Nvidia
ostentatious-2.png

Automatisk output af GauGAN2 for ordet “prangende.”

Tiernan Ray/ZDNet/Nvidia

ostentatious-3.png

Automatisk output fra GauGAN2 for ordet “prangende”

Tiernan Ray/ZDNet/Nvidia

Automatisk output fra GauGAN2 for sætningen “klogt pneumatisk prangende.”

Tiernan Ray/ZDNet/Nvidia

wisely-pneumatic-ostentatious-3.png

Automatisk output fra GauGAN2 for sætningen “wisely pneumatic prangende.”

Tiernan Ray/ZDNet/Nvidia

Eksperimentet kan tages endnu længere med udvidede sætninger, der er suggestive uden nøjagtigt at være beskrivende. Prøv at fodre i første linje til T.S. Eliots digt The Wasteland, “April er den grusomste måned, der avler syrener ud af det døde land.”

Resultatet er nogle slående billeder, der i virkeligheden er lidt passende. Efterhånden som man kaster terningerne, opstår der mange varianter af passende landskaber, med kun små artefakter i nogle tilfælde.

april-er-den-grusommeste-måned-opdrættende-syrener-ud-af-det-døde-land-2.png

“April er den grusommeste måned, der avler syrener ud af det døde land,” TS Eliot, The Wasteland.

Tiernan Ray/ZDNet/Nvidia

april-er-den-grusommeste-måned-avler-syrener-ud-af-det-døde-land-3.png

Tiernan Ray/ZDNet/Nvidia

Takket være innovationerne fra StyleGAN er GauGAN i stand til at anvende en stil på billedet for i det væsentlige at betinge outputtet til være i form af et andet billede, snarere som en mash-up.

Anvendelsen af ​​stil på Eliots digt forvrænger de trofaste landskabsbilleder til ukendelighed. Endnu en gang dukker en lang række mærkelige genstande op med en slags kvalmende organisk kvalitet for nogle af dem, andre blot knækkede skår af det, der engang var et billede.

april-er-den-grusommeste-måned-avler-syrener-ud-af-det-døde-land-8.png

Tiernan Ray/ZDNet/Nvidia

april-er-den-grusommeste-måned-avler-syrener-ud-af-det-døde-land-5.png

Tiernan Ray/ZDNet/Nvidia

april-er-den-grusommeste-måned-avler-syrener-ud-af-det-døde-land-14.png

Tiernan Ray/ZDNet/Nvidia

Man kan også indsende billeder og endda tegne på GauGAN 2. At indsende et gammelt fotografi taget ved Þingvellir, stedet for det gamle islandske parlament, gjorde ikke meget. Billedet forblev stort set utransformeret i begrænset test.

Et foto taget på Þingvellir, stedet for det gamle islandske parlament, var stort set uændret, da det blev indsendt til GauGAN2.

Tiernan Ray

Tilføjelse af ordet “Þingvellir” frembragte imidlertid et realistisk nok landskab, der var i overensstemmelse med Þingvellir-webstedet.

thingvellir.png

GuaGAN2 output for ordet “Þingvellir” var i ånden i det gamle islandske landskab.

Tiernan Ray/ZDNet/Nvidia

Tilføjelse af ordet ” vulkan” producerede et slående alternativt landskab, mindre realistisk, mere surrealistisk.

GuaGAN2 automatisk output for “Þingvellir-vulkanen.”

Tiernan Ray/ZDNet/Nvidia

At tilføje et uforskammet ord, såsom “Teknologi”, rystede landskabet yderligere op og tilføjede mærkelige nonsensfigurer.

thingvellir-technology-2.png

GauGAN2 automatisk output for sætningen “Þingvellir-teknologi.”

Tiernan Ray/ZDNet/Nvidia

I stedet for at indsende et foto af et landskab, kan man tegne, som det var tilfældet i den originale GauGAN. Igen, at vælge noget, der ikke er i overensstemmelse med demoen, en tegning ikke af et landskab, men af ​​en persons hoved, giver mere interessante resultater. Ansigtet er i stand til at re-skin, om du vil, ved at bruge mash-up funktionen. Terningkast gav interessante variationer.

selvportræt.jpg

tegning direkte i GauGAN2.

Tiernan Ray/ZDNet/Nvidia

gaugan-output-jpg-10.png

Tegning af et hoved, der er omskåret ved at bruge lagfunktionen i GauGAN2.

Tiernan Ray/ZDNet/Nvidia

gaugan-output-jpg-19.png

Tegning af et hoved, der er omskinnet ved at bruge lagfunktionen i GauGAN2.

Tiernan Ray/ZDNet/Nvidia

figur>

 Kombinering af tegningen med ordet “Þingvellir” gav subtile ændringer, ligesom tilføjelse af yderligere ord som “vulkan” og “rift”. Billedet blev re-flået til at have en slags vulkan-lignende tekstur.

selvportræt-plus-thingvellir.png

Tegning af et hoved kombineret med ordene “Þingvellir vulkanskløft” og re-skinnet ved at bruge lagfunktionen i GauGAN2.

Tiernan Ray/ZDNet/Nvidia

Bemærk, at appens brugergrænseflade kan være svær at rulle i desktopbrowsere. Af en eller anden grund ser det ud til at fungere bedre i en tabletbrowser, såsom en iPad.

Kunstig intelligens

GE, Einride afslører den første autonome elektriske lastbil, der kører på amerikansk jord Alphabets DeepMind-udlæggeren bruger kunstig intelligens til opdagelse af lægemidler Ny burgerbot laver også kyllingevinger. Hvad er kunstig intelligens? Alt hvad du behøver at vide om Artificial Intelligence Developer | Digital transformation | CXO | Internet of Things | Innovation | Enterprise Software