De absurde schoonheid van het hacken van Nvidia's GauGAN 2 AI-beeldmachine

0
184

Tiernan Ray

Door Tiernan Ray | 22 november 2021 | Onderwerp: Kunstmatige Intelligentie

zdnet-superb-reporting.png

Het typen van de woorden “ZDNet superb reporting” in Nvidia's GauGAN 2 AI-programma produceert automatisch surrealistische beelden.

Tiernan Ray/ZDNet/Nvidia

Typ de woorden “ZDNet superbe rapportage” in Nvidia's nieuwe kunstmatige-intelligentiedemo, GauGAN 2, en je zult een foto zien van wat lijkt op grote stukken schuimisolatie die in een meer worstelen tegen een besneeuwde achtergrond.

Voeg meer woorden toe, zoals “ZDNet superbe rapportage, mooi”, en je zult zien dat het beeld verandert in iets nieuws, een nauwelijks herkenbare vorm, misschien een Formule 1-raceauto die is verteerd, verder gaand wat lijkt op een weg, met wazige beelden van een door mensen gemaakt bouwwerk.

zdnet-superb-reporting-comely-3.png

GauGAN 2 produceert een vreemde interpretatie van de uitdrukking “ZDNet superbe rapportage knap.”

Tiernan Ray/ZDNet/Nvidia

Werp de dobbelsteen met een kleine knop van een afbeelding van twee dobbelstenen, en je zult, en dezelfde zin wordt een spookachtig, in mist gehuld landschap met een gapende mond van een soort organische aard, maar volledig onidentificeerbaar met betrekking tot de exacte soort .

zdnet-superb-reporting-comely-4.png

Nog een dobbelsteenworp levert dit bizarre landschap-plus-wezen op.

Tiernan Ray/ZDNet/Nvidia

Het typen van zinnen is de nieuwste manier om GauGAN te besturen, een algoritme dat is ontwikkeld door grafische chipgigant Nvidia om de stand van zaken van AI te demonstreren. Het originele GauGAN-programma werd begin 2019 geïntroduceerd als een manier om te tekenen en het programma automatisch een fotorealistisch beeld te laten genereren door de tekening in te vullen.

De term “GAN” in de naam verwijst naar een brede klasse van neurale netwerkprogramma's, genaamd generatieve vijandige netwerken, geïntroduceerd in 2014 door Ian Goodfellow en collega's. GAN's gebruiken twee neurale netwerken die voor verschillende doeleinden werken, waarvan één output produceert die het gestaag verfijnt totdat het tweede neurale netwerk de output valideert. Het competitieve karakter van heen en weer is waarom ze 'tegenstanders' worden genoemd.

Nvidia heeft baanbrekend werk verricht door GAN's uit te breiden, waaronder de introductie in 2018 van “Style-GAN”, waarmee het mogelijk werd om zeer realistische nepfoto's van mensen te genereren. In dat werk “leerde” het neurale netwerk aspecten op hoog niveau van gezichten en ook aspecten op laag niveau, zoals huidskleur.

In de originele GauGAN uit 2019 gebruikt Nvidia een vergelijkbare benadering, waarbij men een landschap laat tekenen als gebieden, ook wel een segmentatiekaart genoemd. Die abstracties op hoog niveau, zoals meren en rivieren en velden, werden een structureel sjabloon en het GauGAN-programma zou dan de getekende segmentatiekaart invullen met echte vormen.

Versie twee van het programma is bijgewerkt om met taal om te gaan. Het is de bedoeling dat men GuaGAN 2 aanzet met verstandige zinnen, dingen die betrekking hebben op landschappen, zoals 'kust rimpelt kliffen'. Het GauGAN 2-programma zal reageren door een realistisch ogende scène te genereren die overeenkomt met die invoer.

Het programma is ontwikkeld in de “trainingsfase” door 10 miljoen landschapsafbeeldingen van hoge kwaliteit te krijgen, zegt Nvidia, met behulp van de Selene-supercomputer die is gebouwd met Nvidia GPU's.

Er kan ook automatisch een segmentatiekaart worden gemaakt, waardoor één om terug te gaan en de lay-out van het landschap te bewerken op de manier waarop de originele GauGAN het mogelijk maakte.

Zoals Nvidia GauGAN 2 beschrijft in een blogpost, is de combinatie van tekst en afbeelding en segmentatiekaart een doorbraak in multimodale AI:

GauGAN2 combineert segmentatiemapping, inpainting en het genereren van tekst naar afbeelding in één model, waardoor het een krachtig hulpmiddel is om fotorealistische kunst te creëren met een mix van woorden en tekeningen. De demo is een van de eersten die meerdere modaliteiten combineert – tekst, semantische segmentatie, schets en stijl – binnen één GAN-framework. Dit maakt het sneller en gemakkelijker om de visie van een artiest om te zetten in een hoogwaardig AI-gegenereerd beeld.

Het praktische voordeel, zegt Nvidia, is dat je een paar woorden kunt gebruiken om een ​​basisafbeelding samen te stellen zonder enige tekening en vervolgens details kunt aanpassen om de uiteindelijke uitvoer te verfijnen.

Maar het toevoegen van woorden die niets met landschappen te maken hebben, zoals 'ZDNet', begint gekke artefacten te genereren die soms weerzinwekkende grilligheid en soms ontstellende schoonheid hebben – afhankelijk van je smaak. In de terminologie van deep learning zijn de grillige beelden die worden geproduceerd door onzinnige uitdrukkingen het gevolg van het feit dat het programma moet worstelen met taal die 'niet meer gedistribueerd' is, wat betekent dat ze niet zijn vastgelegd in de trainingsgegevens die naar de machine worden gestuurd. Geconfronteerd met onverenigbare zinnen, worstelt het programma met het matchen van een afbeelding met de frase.

Zoals te zien is in een reeks afbeeldingen, produceert de “coast ripples cliffs” in eerste instantie een zeer getrouw beeld. Het toevoegen van kwalificaties met brutale woorden — fiets, New York City, de naam Cassandra — begint het landschap op vreemde manieren te veranderen en vorm te geven.

coast-ripples-cliffs-2.png

Automatische uitvoer door GauGAN2 van de uitdrukking “coast ripples cliffs.”

Tiernan Ray/ZDNet/Nvidia

coast -ripples-cliffs-bicycle-new-york-cassandra-drill-airplane-wisely-pneumatic-ostentatious.png

Automatische uitvoer door GauGAN2 van de uitdrukking “kust rimpelt kliffen fiets New York Cassandra boor vliegtuig wijselijk pneumatisch opzichtig.”

Tiernan Ray/ZDNet/Nvidia

Er gebeuren nog interessantere dingen als alle landschapswoorden zijn verwijderd, zodat alleen de onzin overblijft. Vreemde, futuristische landschappen of veelkleurige amoeben komen in beeld.

cassandra-drill-airplane-wisely-pneumatic-ostentatious.png

Automatische uitvoer door GauGAN2 voor de uitdrukking “Cassandra boorvliegtuig wijselijk pneumatisch opzichtig.”

Tiernan Ray/ZDNet/Nvidia
ostentatief-2.png

Automatische uitvoer door GauGAN2 voor het woord “ostentatief.”

Tiernan Ray/ZDNet/Nvidia

ostentatief-3.png

Automatische uitvoer door GauGAN2 voor het woord “opzichtig”

Tiernan Ray/ZDNet/Nvidia

Automatische uitvoer door GauGAN2 voor de uitdrukking “wijselijk pneumatisch opzichtig.”

Tiernan Ray/ZDNet/Nvidia

wisely-pneumatic-ostentatious-3.png

Automatische output door GauGAN2 voor de uitdrukking “wijselijk pneumatisch opzichtig.”

Tiernan Ray/ZDNet/Nvidia

Het experiment kan nog verder worden doorgevoerd met uitgebreide zinnen die suggestief zijn zonder precies beschrijvend te zijn. Probeer de eerste regel naar T.S. Eliot's gedicht The Wasteland, “April is de wreedste maand, die seringen kweekt uit het dode land.”

Het resultaat is een aantal opvallende beelden die in feite enigszins toepasselijk zijn. Als je de dobbelsteen gooit, ontstaan ​​er veel varianten van geschikte landschappen, met in sommige gevallen slechts kleine artefacten.

april-is-the-cruelest-month-breeding-lilacs-out-of-the-dead-land-2.png

“April is de wreedste maand en kweekt seringen uit het dode land”, TS Eliot, The Wasteland.

Tiernan Ray/ZDNet/Nvidia

april-is-the-cruellest-month-breeding-lilacs-out-of-the-dead-land-3.png

Tiernan Ray/ZDNet/Nvidia

Dankzij de innovaties van StyleGAN is GauGAN in staat om een ​​stijl op de afbeelding toe te passen, om de uitvoer in wezen te in de vorm van een ander beeld zijn, eerder als een mash-up.

De toepassing van stijl op Eliots gedicht vervormt de natuurgetrouwe landschapsbeelden onherkenbaar. Opnieuw verschijnen er een hele reeks vreemde objecten met een soort misselijkmakende organische kwaliteit voor sommigen, andere slechts gebroken scherven van wat ooit een afbeelding was.

april-is-the-cruellest-month-breeding-lilacs-out-of-the-dead-land-8.png

Tiernan Ray/ZDNet/Nvidia

april-is-the-cruellest-month-breeding-lilacs-out-of-the-dead-land-5.png

Tiernan Ray/ZDNet/Nvidia

april-is-the-cruellest-month-breeding-lilacs-out-of-the-dead-land-14.png

Tiernan Ray/ZDNet/Nvidia

Je kunt ook afbeeldingen inzenden en zelfs tekenen op GauGAN 2. Het indienen van een oude foto die is gemaakt in Þingvellir, de plaats van het oude IJslandse parlement, leverde niet veel op. De afbeelding bleef in beperkte tests grotendeels ongewijzigd.

thingfetlir

Een foto genomen in Þingvellir, de plaats van het oude IJslandse parlement, was grotendeels ongewijzigd toen deze werd ingediend bij GauGAN2.

Tiernan Ray

Toevoeging van het woord “Þingvellir,” leverde echter een realistisch genoeg landschap op dat in overeenstemming was met de Þingvellir-site.

thingvellir.png

GuaGAN2-uitvoer voor het woord “Þingvellir” was in de geest van het oude IJslandse landschap.

Tiernan Ray/ZDNet/Nvidia

Het woord “toevoegen” vulkaan” produceerde een opvallend alternatief landschap, minder realistisch, meer surrealistisch.

GuaGAN2 automatische uitvoer voor “Þingvellir-vulkaan.”

Tiernan Ray/ZDNet/Nvidia

Het toevoegen van een onbeschaamd woord, zoals 'Technologie', schudde het landschap nog meer op en voegde vreemde onzinfiguren toe.

thingvellir-technology-2.png

GauGAN2 automatische uitvoer voor de uitdrukking “Þingvellir-technologie.”

Tiernan Ray/ZDNet/Nvidia

In plaats van een foto van een landschap in te sturen, kan men tekenen, zoals het geval was in de originele GauGAN. Nogmaals, iets kiezen dat niet in overeenstemming is met de demo, een tekening niet van een landschap maar van iemands hoofd, levert interessantere resultaten op. Het gezicht kan desgewenst opnieuw worden gevild met behulp van de mash-up-functie. Het gooien van de dobbelstenen leverde interessante variaties op.

self-portrait.jpg

rechtstreeks tekenen in GauGAN2.

Tiernan Ray/ZDNet/Nvidia

gaugan-output-jpg-10.png

Tekening van een hoofd dat opnieuw is gevild met behulp van de lagenfunctie in GauGAN2.

Tiernan Ray/ZDNet/Nvidia

gaugan-output-jpg-19.png

Tekening van een hoofd dat opnieuw is gevild met behulp van de lagenfunctie in GauGAN2.

Tiernan Ray/ZDNet/Nvidia

figure>

 De combinatie van de tekening met het woord 'Þingvellir' zorgde voor subtiele veranderingen, net als het toevoegen van extra woorden zoals 'vulkaan' en 'rift'. Het beeld werd opnieuw gevild om een ​​soort vulkaanachtige textuur te krijgen.

zelfportret-plus-thingvellir.png

Tekening van een hoofd gecombineerd met de woorden “Þingvellir vulkaanrift” en opnieuw gevild met behulp van de lagenfunctie in GauGAN2.

Tiernan Ray/ZDNet/Nvidia

Merk op dat de gebruikersinterface van de app moeilijk te scrollen kan zijn in desktopbrowsers. Om de een of andere reden lijkt het beter te werken in een tabletbrowser, zoals een iPad.

Kunstmatige intelligentie

GE, Einride onthullen eerste autonome elektrische vrachtwagen die op Amerikaanse bodem rijdt. DeepMind-uitloper gebruikt AI voor het ontdekken van medicijnen Nieuwe burgerbot doet ook kippenvleugels Wat is AI? Alles wat u moet weten over Artificial Intelligence Developer | Digitale transformatie | CXO | Internet der dingen | Innovatie | Bedrijfssoftware