Den absurda skönheten med att hacka Nvidias GauGAN 2 AI-bildmaskin

0
172

Tiernan Ray

Av Tiernan Ray | 22 november 2021 | Ämne: Artificiell intelligens

zdnet-superb-reporting.png

Skriv orden “ZDNet superb reporting” i Nvidias GauGAN 2 AI-program producerar automatiskt surrealistiska bilder.

Tiernan Ray/ZDNet/Nvidia

Skriv in orden “ZDNet superb reporting” i Nvidias nya artificiell intelligens-demo, GauGAN 2, så får du se en bild av vad som ser ut som stora bitar av skumisolering som brottas i en sjö mot en snöig bakgrund.

Lägg till fler ord, som “ZDNet superb reporting comely”, så kommer du att se bilden förvandlas till något nytt, någon knappt igenkännbar form, kanske en Formel 1-racerbil som har smälts, fortsättningsvis det som ser ut som en väg, framför suddiga vyer av en konstgjord struktur.

zdnet-superb-reporting-comely-3.png

GauGAN 2 producerar en märklig tolkning av frasen “ZDNet superb reporting comely.”

Tiernan Ray/ZDNet/Nvidia

Slå tärningen med en liten knapp av en bild av två tärningar, och du kommer, och samma fras blir ett kusligt, dimmhöljt landskap med en gäspande mun av någon sorts organisk natur, men helt oidentifierbar vad gäller dess exakta art .

zdnet-superb-reporting-comely

Ännu ett tärningskast producerar denna bisarra landskap-plus-varelse.

Tiernan Ray/ZDNet/Nvidia

Att skriva fraser är det senaste sättet att styra GauGAN, en algoritm som utvecklats av grafikchipjätten Nvidia för att visa upp det senaste inom AI. Det ursprungliga GauGAN-programmet introducerades i början av 2019 som ett sätt att rita och få programmet att automatiskt generera en fotorealistisk bild genom att fylla i ritningen.

Begreppet “GAN” i namnet syftar på en bred klass av neurala nätverksprogram, kallade generativa motstridiga nätverk, introducerade 2014 av Ian Goodfellow och kollegor. GAN:er använder två neurala nätverk som fungerar på olika sätt, ett som producerar utdata som det stadigt förfinar tills det andra neurala nätverket märker att utdatan är giltig. Den konkurrenskraftiga karaktären hos fram och tillbaka är anledningen till att de kallas “motstridiga.”

Nvidia har gjort banbrytande arbete med att utöka GAN, inklusive introduktionen 2018 av “Style-GAN”, som gjorde det möjligt att generera mycket realistiska falska bilder av människor. I det arbetet “lärde sig” det neurala nätverket högnivåaspekter av ansikten och även lågnivåaspekter, såsom hudton.

I den ursprungliga GauGAN från 2019 använder Nvidia ett liknande tillvägagångssätt, som låter en rita ett landskap som områden, känd som en segmenteringskarta. Dessa abstraktioner på hög nivå, som sjöar och floder och fält, blev en strukturell mall, och GauGAN-programmet skulle sedan fylla i den ritade segmenteringskartan med verkliga former.

Version två av programmet har uppdaterats för att hantera språk. Avsikten är att man ska uppmana GuaGAN 2 med förnuftiga fraser, saker som hör till landskap, som “kusten krusar klippor.” GauGAN 2-programmet kommer att svara genom att generera en scen med realistiskt utseende som matchar den ingången.

Programmet utvecklades i sin “träningsfas” genom att matas 10 miljoner högkvalitativa landskapsbilder, säger Nvidia, med hjälp av Selene-superdatorn byggd av Nvidia GPU:er.

En segmenteringskarta kan också skapas automatiskt, vilket gör det möjligt att en för att gå tillbaka och redigera layouten av landskapet på det sätt som den ursprungliga GauGAN tillät en att skapa.

Som Nvidia beskriver GauGAN 2 i ett blogginlägg, är kombinationen av text och bild och segmenteringskarta ett genombrott inom multimodalitet AI:

GauGAN2 kombinerar segmenteringskartläggning, målning och text-till-bild-generering i en enda modell, vilket gör det till ett kraftfullt verktyg för att skapa fotorealistisk konst med en blandning av ord och teckningar. Demon är en av de första som kombinerar flera modaliteter – text, semantisk segmentering, skiss och stil – inom ett enda GAN-ramverk. Detta gör det snabbare och enklare att omvandla en artists vision till en högkvalitativ AI-genererad bild.

Den praktiska fördelen, säger Nvidia, är att man kan använda några få ord för att få ihop en grundläggande bild utan att rita alls och sedan finjustera detaljer för att förfina den slutliga produktionen.

Men att lägga till ord som inte har något att göra med landskap, som “ZDNet”, börjar generera galna artefakter som ibland har upprörande freakishness, och ibland skrämmande skönhet – beroende på din smak. I terminologin för djupinlärning är de galna bilderna som produceras av nonsensfraser ett resultat av att programmet måste brottas med språk som är “utom distribution”, vilket betyder att det inte fångas i träningsdata som matas till maskinen. Inför oförsonliga fraser kämpar programmet för att matcha en bild till frasen.

Som kan ses i en serie bilder ger “kusten krusar klipporna” till en början en mycket trogen bild. Att lägga till kvalspel med oförskämda ord – cykel, New York City, namnet Cassandra – börjar förändras och forma landskapet på konstiga sätt.

coast-ripples-cliffs-2.png

Automatisk utmatning av GauGAN2 av frasen “kusten krusar klippor.”

Tiernan Ray/ZDNet/Nvidia

Automatisk utmatning av GauGAN2 av frasen “coast ripples cliffs bicycle New York Cassandra drill airplane wisely pneumatic ostentatious.”

Tiernan Ray/ZDNet/Nvidia

Ännu mer intressanta saker händer när alla landskapsord är bort, lämnar bara nonsens. Konstiga, futuristiska landskap eller mångfärgade amöbor kommer till synen.

cassandra-drill-airplane-wisely-pngt-png

Automatisk utmatning av GauGAN2 för frasen “Cassandra borra flygplan klokt pneumatisk prålig.”

Tiernan Ray/ZDNet/Nvidia
ostentatious-2.png

Automatisk utmatning av GauGAN2 för ordet “pratig.”

Tiernan Ray/ZDNet/Nvidia

ostentatious-3.png

Automatisk utmatning av GauGAN2 för ordet “pratig”

Tiernan Ray/ZDNet/Nvidia

Automatisk utmatning av GauGAN2 för frasen “klokt pneumatisk prålig.”

Tiernan Ray/ZDNet/Nvidia

wisely-pneumatic-ostentatious-3.png

Automatisk utmatning av GauGAN2 för frasen “wisely pneumatic ostentatious.”

Tiernan Ray/ZDNet/Nvidia

Experimentet kan tas ännu längre med utökade fraser som är suggestiva utan att vara exakt beskrivande. Prova att mata i första raden till T.S. Eliots dikt The Wasteland, “April är den grymmaste månaden som föder upp syrener ur det döda landet.”

Resultatet är några slående bilder som faktiskt är lite passande. När man slår tärningen uppstår många varianter av lämpliga landskap, med endast små artefakter i vissa fall.

april-is-the-cruelest-month-breeding-lilacs-out-of-the-dead-land-2.png

“April är den grymmaste månaden som föder upp syrener ur det döda landet,” TS Eliot, The Wasteland.

Tiernan Ray/ZDNet/Nvidia

april-is-the-cruellest-month-breeding-lilacs-out-of-the-dead-land-3.png

Tiernan Ray/ZDNet/Nvidia

Tack vare innovationerna från StyleGAN kan GauGAN tillämpa en stil på bilden, för att i huvudsak konditionera utdata till vara i form av någon annan bild, snarare som en mash-up.

Tillämpningen av stil på Eliots dikt förvränger de trogna landskapsbilderna till oigenkännlighet. Återigen dyker en hel mängd konstiga föremål upp med en slags sjuklig organisk kvalitet för vissa av dem, andra bara trasiga skärvor av det som en gång var en bild.

april-is-the-cruellest-month-breeding-lilacs-out-of-the-dead-land-8.png

Tiernan Ray/ZDNet/Nvidia

april-is-the-cruellest-month-breeding-lilacs-out-of-the-dead-land-5.png

Tiernan Ray/ZDNet/Nvidia

april-is-the-cruellest-month-breeding-lilacs-out-of-the-dead-land-14.png

Tiernan Ray/ZDNet/Nvidia

Man kan också skicka in bilder och till och med rita på GauGAN 2. Att skicka in ett gammalt fotografi taget på Þingvellir, platsen för det gamla isländska parlamentet, gjorde inte så mycket. Bilden förblev mestadels oförvandlad, i begränsade tester.

Ett foto taget på Þingvellir, platsen för det gamla isländska parlamentet, var för det mesta oförändrat när det skickades till GauGAN2.

Tiernan Ray

Att lägga till ordet “Þingvellir” gav dock ett tillräckligt realistiskt landskap som var i linje med platsen för Þingvellir.

thingvellir.png

GuaGAN2-utdata för ordet “Þingvellir” var i andan av det gamla isländska landskapet.

Tiernan Ray/ZDNet/Nvidia

Lägger till ordet ” vulkan” producerade ett slående alternativt landskap, mindre realistiskt, mer surrealistiskt.

GuaGAN2 automatisk utmatning för “Vulkanen Þingvellir.”

Tiernan Ray/ZDNet/Nvidia

Att lägga till ett oförskämt ord, som “Teknik”, skakade om landskapet ytterligare och lade till konstiga nonsensfigurer.

thingvellir-technology-2.png

GauGAN2 automatisk utdata för frasen “Þingvellir technology.”

Tiernan Ray/ZDNet/Nvidia

Istället för att skicka in ett foto av ett landskap kan man rita, som var fallet i den ursprungliga GauGAN. Återigen, att välja något, inte i linje med demon, en teckning inte av ett landskap utan av en persons huvud, ger mer intressanta resultat. Ansiktet går att skina om, om man så vill, genom att använda mash-up-funktionen. Att kasta tärningarna gav intressanta varianter.

självporträtt.jpg

rita direkt i GauGAN2.

Tiernan Ray/ZDNet/Nvidia

gaugan-output-jpg-10.png

Ritning av ett huvud som omskinnats genom att använda lagerfunktionen i GauGAN2.

Tiernan Ray/ZDNet/Nvidia

gaugan-output-jpg-19.png

Ritning av ett huvud som omskinnats genom att använda lagerfunktionen i GauGAN2.

Tiernan Ray/ZDNet/Nvidia

figur>

 Att kombinera teckningen med ordet “Þingvellir” gav subtila förändringar, liksom att lägga till ytterligare ord som “vulkan” och “spricka”. Bilden gjordes om för att få en slags vulkanliknande struktur.

självporträtt-plus-thingvellir.png

Teckning av ett huvud kombinerat med orden “Vulkanspricka Þingvellir” och omskinnad genom att använda lagerfunktionen i GauGAN2.

Tiernan Ray/ZDNet/Nvidia

Observera att användargränssnittet för appen kan vara svårt att rulla i skrivbordswebbläsare. Av någon anledning verkar det fungera bättre i en surfplatta-webbläsare, till exempel en iPad.

Artificiell intelligens

GE, Einride avtäcker den första autonoma elektriska lastbilen som körs på amerikansk mark Alphabets DeepMind avläggare använder AI för drogupptäckt Ny hamburgerbot gör också kycklingvingar. Vad är AI? Allt du behöver veta om Artificial Intelligence Developer | Digital transformation | CXO | Internet of Things | Innovation | Företagsprogramvara