DANSK

OpenAIs DALL-E AI billedgenerator kan nu også redigere billeder

162

Forskergruppen for kunstig intelligens OpenAI har skabt en ny version af DALL-E, dets tekst-til-billede-genereringsprogram. DALL-E 2 har en version med højere opløsning og lavere latency af det originale system, som producerer billeder, der viser beskrivelser skrevet af brugere. Det inkluderer også nye muligheder, såsom redigering af et eksisterende billede. Som med tidligere OpenAI-arbejde frigives værktøjet ikke direkte til offentligheden. Men forskere kan tilmelde sig online for at få vist systemet, og OpenAI håber senere at gøre det tilgængeligt til brug i tredjepartsapps.

Den originale DALL-E, et portmanteau af kunstneren “Salvador Dalí” og robotten “WALL-E”, debuterede i januar 2021. Det var en begrænset, men fascinerende test af AI's evne til visuelt at repræsentere koncepter, fra verdslige skildringer af en mannequin i flannelskjorte til “en giraf lavet af skildpadde” eller en illustration af en radise, der går tur med en hund. På det tidspunkt sagde OpenAI, at det ville fortsætte med at bygge videre på systemet og samtidig undersøge potentielle farer som bias i billedgenerering eller produktion af misinformation. Det forsøger at løse disse problemer ved hjælp af tekniske sikkerhedsforanstaltninger og en ny indholdspolitik, samtidig med at den reducerer dens computerbelastning og skubber modellens grundlæggende muligheder frem.

En af de nye DALL-E 2-funktioner, inpainting, anvender DALL-Es tekst-til-billede-funktioner på et mere detaljeret niveau. Brugere kan starte med et eksisterende billede, vælge et område og bede modellen om at redigere det. Du kan blokere et maleri på en stuevæg og erstatte det med et andet billede, for eksempel eller tilføje en vase med blomster på et sofabord. Modellen kan fylde (eller fjerne) objekter, mens den tager højde for detaljer som skyggernes retninger i et rum. En anden funktion, variationer, er ligesom et billedsøgningsværktøj til billeder, der ikke eksisterer. Brugere kan uploade et startbillede og derefter oprette en række varianter, der ligner det. De kan også blande to billeder og generere billeder, der har elementer af begge. De genererede billeder er 1.024 x 1.024 pixels, et spring over de 256 x 256 pixels, som den originale model leverede.

DALL-E 2 bygger på CLIP, et computervisionssystem, som OpenAI også annoncerede sidste år. “DALL-E 1 tog lige vores GPT-3 tilgang fra sproget og anvendte den til at producere et billede: vi komprimerede billeder til en række ord, og vi lærte bare at forudsige, hvad der kommer næste gang,” siger OpenAI-forsker Prafulla Dhariwal med henvisning til GPT-modellen, der bruges af mange tekst AI-apps. Men ordmatchningen fangede ikke nødvendigvis de kvaliteter, mennesker fandt vigtigst, og den forudsigelige proces begrænsede billedernes realisme. CLIP blev designet til at se på billeder og opsummere deres indhold, som et menneske ville, og OpenAI gentog denne proces for at skabe “unCLIP” – en omvendt version, der starter med beskrivelsen og arbejder sig hen imod et billede. DALL-E 2 genererer billedet ved hjælp af en proces kaldet diffusion, som Dhariwal beskriver som at starte med en “pose med prikker” og derefter udfylde et mønster med flere og flere detaljer.

Et eksisterende billede af et værelse med en flamingo tilføjet i det ene hjørne.

Interessant nok siger et udkast til unCLIP, at det delvist er modstandsdygtigt over for en meget sjov svaghed ved CLIP: det faktum, at folk kan narre modellens identifikationsevner ved at mærke en genstand (som et Granny Smith æble) med et ord, der indikerer noget andet (som en iPod) ). Variationsværktøjet, siger forfatterne, “generer stadig billeder af æbler med høj sandsynlighed”, selv når man bruger et forkert mærket billede, som CLIP ikke kan identificere som en Granny Smith. Omvendt “producerer modellen aldrig billeder af iPods, på trods af den meget høje relative forventede sandsynlighed for denne billedtekst.”

DALL-E's fulde model blev aldrig udgivet offentligt, men andre udviklere har finpudset deres egne værktøjer, der efterligner nogle af dens funktioner i løbet af det sidste år. En af de mest populære mainstream-applikationer er Wombo's Dream-mobilapp, som genererer billeder af hvad end brugerne beskriver i en række forskellige kunststile. OpenAI udgiver ikke nogen nye modeller i dag, men udviklere kunne bruge dets tekniske resultater til at opdatere deres eget arbejde.

OpenAI har implementeret nogle indbyggede sikkerhedsforanstaltninger. Modellen blev trænet på data, der havde fjernet noget stødende materiale, hvilket ideelt set begrænsede dens evne til at producere stødende indhold. Der er et vandmærke, der angiver den AI-genererede karakter af arbejdet, selvom det teoretisk set kunne skæres ud. Som en forebyggende anti-misbrugsfunktion kan modellen heller ikke generere genkendelige ansigter baseret på et navn – selv at bede om noget som Mona Lisa ville tilsyneladende returnere en variant på det faktiske ansigt fra maleriet.

DALL-E 2 vil være testbar af godkendte partnere med nogle forbehold. Brugere har forbud mod at uploade eller generere billeder, der er “ikke G-klassificeret” og “kan forårsage skade”, inklusive alt, der involverer hadesymboler, nøgenhed, obskøne gestus eller “store konspirationer eller begivenheder relateret til store igangværende geopolitiske begivenheder.” De skal også afsløre AI's rolle i genereringen af billederne, og de kan ikke vise genererede billeder til andre mennesker gennem en app eller hjemmeside – så du vil i første omgang ikke se en DALL-E-drevet version af noget som Dream. Men OpenAI håber at tilføje det til gruppens API-værktøjssæt senere, så det kan drive tredjepartsapps. “Vores håb er at blive ved med at lave en trinvis proces her, så vi kan blive ved med at evaluere ud fra den feedback, vi får, hvordan vi kan frigive denne teknologi sikkert,” siger Dhariwal.

Yderligere rapportering fra James Vincent .

LEAVE A REPLY