Hvad er DALL·E 2?

DALL·E 2 er et kunstig intelligensprogram, der skaber billeder ud fra tekstbeskrivelser, afsløret torsdag af OpenAI, et forskningsfirma.

Den bruger en 12 milliarder parameter træningsversion af GPT-3 transformermodellen til at fortolke de naturlige sproginput og generere tilsvarende billeder. For eksempel, når den blev forsynet med sætningen 'et sort-hvidt foto af en lille hund', producerede det et korrekt gengivet sort-hvidt billede af en Chihuahua.

Systemet er ikke perfekt - det producerer nogle gange billeder, der er svære at fortolke, eller helt uden for mærket. For eksempel, da de blev bedt om at generere et billede af 'en person, der kører på en enhjulet cykel på stram reb over en vulkan', producerede det et (smukt, efter min mening), men fuldstændig uafhængigt billede af en solnedgang over vand med en lille figur i forgrunden .

Alligevel er resultaterne imponerende, og OpenAI siger, at DALL·E 2 'er den første AI-model til at generere billeder ud fra tekstbeskrivelser, der kan måle sig med kvaliteten af professionelle menneskelige kunstnere.'

Systemet blev trænet på et datasæt af tekst-billede-par, bestående af omkring 1,3 millioner billeder og billedtekster fra internettet, som blev skrabet og kurateret af OpenAI. Træningsdataene blev derefter brugt til at finjustere GPT-3-modellen, så den kunne generere billeder ud fra tekstbeskrivelser.

OpenAI siger, at systemet kan generere 'højkvalitets' billeder fra en bred vifte af tekstbeskrivelser, inklusive dem, der er abstrakte, konkrete eller endda poetiske.

Ud over Chihuahua-eksemplet omfatter andre eksempler på billeder produceret af DALL·E 2 et korrekt gengivet portræt af Adolf Hitler, et billede af en drage lavet af grøntsager og et billede af Mona Lisa lavet af toast.

Systemet er også i stand til at generere billeder af ting, der ikke eksisterer, såsom en 'floof' (et sminket dyr) eller en 'tulpa' (en tankeform).

Samlet set er resultaterne imponerende, og OpenAI siger, at systemet 'åbner nye muligheder for at generere billeder ud fra tekstbeskrivelser.'

FRA E 2 Det her CLIP-system konverterer tekstinformation til visuel information. Dette er et encoder-dekoder-paradigme, hvilket betyder, at når inputtekst leveres, bliver den først konverteret til maskininput, derefter behandlet af systemet og til sidst videregivet til dekoderen, som konverterer de kodede data til et billede.

Hvad er DALL E 2

Hvad er DALL·E 2?

Dette er den seneste generation af DALL·E, en generativ sprogmodel, der bruger sætninger til at skabe helt nye visuelle effekter. DALL E 2 er en enorm 3,5V-model, dog ikke så massiv som GPT-3. Interessant nok er den også lettere end sin forgænger (12B). Med hensyn til beskrivelsesjustering og fotorealisme er DALL·E 2 70 % bedre end DALL·E 2 på trods af dens større størrelse.

DALL.E 2- forklaring til begyndere med eksempler

Specifikt er DALL·E 2 en hierarkisk betinget tekstbilledsyntesemodel, der kombinerer dyb læring til naturlig sprogbehandling med computersyn til billedgenerering. Målet er at træne to modeller, og træningssættet består af parrede billeder og beskrivelser. Den første er a priori, der, givet en skriftlig titel, kan trænes til at generere et CLIP-indlejring. Vi har så en dekoder, der ved indlejring af et CLIP-billede (og billedtekst, hvis den findes), kan generere et trænet billede.

DALLE 2 er trænet ved at bruge hundredvis af millioner af fotos med billedtekster fra internettet, og nogle af disse billeder fjernes og blandes om for at ændre, hvad modellen lærer. Det henter flere billedmuligheder CLIP vedhæftede filer og derefter bruge det dekoder gennemgå hver af dem. Det skaber derefter en interessant blanding af al den information givet brugerens input.

Eksempel DALL ER 2

Lad os spille et lille spil for at forstå DALL·E. Lad os opdele det i de næste tre trin.

Forestil dig regnbuer, skyer og enhjørninger, der flyver på den blå himmel. Forestil dig, hvordan et billede kunne se ud i din fantasi. Mennesker er det tætteste, vi har på den perfekte analog af en billedindlejring, og det billede, der lige dukkede op i dit hoved, er et perfekt eksempel på det. Du kan kun gætte på det endelige produkt, men du har en god idé om, hvad der skal med. Apriori-modellen tager læseren fra ordene i en sætning til en scene i hans eller hendes fantasi.
Nu kan du begynde at tegne. Hvad unCLIP gør, er at konvertere dit mentale billede til en rigtig skitse. Nu kan du nøjagtigt genskabe en anden karakter fra den samme beskrivelse, med den samme grundlæggende statistik, men med en helt ny visuel stil. DALL·E 2 kan også generere unikke billeder fra et eksisterende billede indlejret på denne måde.
Vær opmærksom på den skitse, du har lavet. Det er, hvad der sker, når du skitserer beskrivelsen af 'en enhjørning i midten af skyerne, og en regnbue rejser sig mod himlen.' Undersøg nu billedet og teksten for at finde ud af, hvad der bedst illustrerer den anden (sol, hus, træ osv.), og hvad der bedst illustrerer emnet, stilen, farverne osv. Det, CLIP gør, er at indkode karakteristika. tekst og billeder.

Nu hvor vi ved, hvad DALL-E er, lad os gå videre til næste afsnit og forstå dets funktioner.

Tip: Sådan skaber du realistiske billeder med DALL-E-2 AI-tjenesten

Funktioner DALL E 2

Nedenfor er specifikationerne for DALL·E 2.

Variationer
Farvelægning
Tekstforskelle

Lad os tale om dem i detaljer.

hvordan man laver visitkort i word 2010

1] Variationer

DALL·E 2 går ud over blot at oversætte en sætning til et billede. OpenAI kan eksperimentere med den generative proces og producere forskellige resultater for en given signatur takket være robuste CLIP-indlejringer. Det, CLIP 'ser' i sit 'sind', er, hvad det anser for vigtigt ud fra inputtet (forbliver det samme for alle billeder), og hvad der kan erstattes (som ændres for forskellige billeder). Når det er muligt, vil DALL·E 2 bevare både 'meningsfuld information...og æstetiske aspekter'.

2] Farvelægning

DALL·E 2 kan ændre eksisterende fotos med automatisk udfyldning. I det følgende eksempel er det venstre billede det originale billede, og de midterste og højre billeder har elementet tegnet forskellige steder. DALL·E 2 matcher et ekstra element til billedstilen. Det opdaterer også teksturer og refleksioner for at afspejle det nye element.

Læs : Hvad kan du gøre med ChatGPT

3] Tekstforskelle

DALL·E 2 konverterer billeder ved hjælp af tekstforskelle. DALL·E 2 har også avancerede interpolationsfunktioner, der giver dig mulighed for at ændre objekter. En Twitter-bruger var i stand til at 'unmordenize' sin iPhone. twitter.com at tjekke det ud.

Hvis du kan lide disse funktioner, er alt hvad du skal gøre at gå til openai.com og tilmeld dig derefter. Du kan oprette en ny konto eller bruge dine eksisterende Microsoft- eller Google-konti til at tilmelde dig. Når du gør det, får du nogle gratis kreditter, hvis du vil have mere, skal du betale for det.

Dette er nogle af funktionerne i DALL·E 2, det har mange gode use cases, men det anbefales altid ikke at stole for meget på AI-værktøjer. De er trods alt intet andet end værktøjer, der bruges til at få arbejdet gjort, de kan aldrig erstatte en persons følelsesmæssige intelligens.

Læs også: De bedste Deepfake apps, software og websteder.