Sztuczna inteligencja narysuje co jej napiszesz

Marcin Sarna, 07.01.2021 r.

Sieć neuronowa o nazwie DALL·E tworzy obrazy z podpisów tekstowych. Posługuje się szerokim zakresem pojęć wyrażanych językiem naturalnym.

12 miliardów parametrów

Na stronie projektu openai.com znajduje się między innymi opis modelu w wersji GPT-3 o 12 miliardach parametrów, wyszkolonego do generowania obrazów z opisów tekstowych przy użyciu zestawu danych zawierającego pary tekst-obraz. Ma on całkiem zróżnicowany zestaw możliwości, w tym tworzenie antropomorficznych wersji zwierząt i obiektów, łączenie niepowiązanych ze sobą pojęć w wiarygodny sposób, renderowanie tekstu i stosowanie transformacji do istniejących obrazów.

Zastosowanie GPT-3 udowodniło, że język może być używany do instruowania dużej sieci neuronowej, aby wykonywała różnorodne zadania związane z generowaniem tekstu. Ten sam typ sieci neuronowej może być również używany do generowania obrazów o wysokiej wierności w stosunku do tego co zostało zapisane w języku naturalnym. Dzięki temu w zasięgu człowieka jest teraz manipulowanie koncepcjami wizualnymi za pomocą języka.

Tekst jako tokeny

DALL·E odbiera zarówno tekst jak i obraz jako pojedynczy strumień danych zawierający do 1280 tokenów i jest trenowany przy użyciu maksymalnego prawdopodobieństwa wygenerowania wszystkich tokenów jeden po drugim. Ale czym jest ten token? Stanowi go dowolny symbol z odrębnego słownika; dla ludzi każda angielska litera jest tokenem z 26-literowego alfabetu. Słownik DALL·E obejmuje tokeny zarówno dla pojęć tekstowych, jak i graficznych. Konkretnie, każdy podpis obrazu jest reprezentowany przy użyciu maksymalnie 256 tokenów zakodowanych w byte-pair-encoding o rozmiarze słownika 16384, a obraz jest reprezentowany za pomocą 1024 tokenów o rozmiarze słownika 8192. Podczas treningu obrazy są zaś wstępnie przetwarzane do rozdzielczości 256x256.

Ta procedura „szkoleniowa” pozwala nie tylko generować obraz od zera, ale także regenerować dowolny prostokątny obszar istniejącego obrazu, który rozciąga się do prawego dolnego rogu, w sposób zgodny z tym co użytkownik zapisał w formie tekstowej.

Java Full Stack Developer (Angular2+ experience) 17000 - 18000 PLN Formy umowy: B2B / Kontrakt

Warszawa

Aplikuj

Sales Executive / KAM 8000 - 14000 PLN Formy umowy: Umowa o pracę B2B / Kontrakt

Gdynia

Aplikuj

Zdolna bestia

DALL·E jest w stanie stworzyć wiarygodne obrazy dla wielu różnych zdań. Analizowana jest przy tym kompozycyjna struktura języka. Nie jest używane właściwie żadne ręczne wybieranie.

Jednoczesne sterowanie wieloma obiektami, ich atrybutami i relacjami przestrzennymi stanowi zupełnie nowe wyzwanie. Na przykład popatrzmy na takie wyrażenie: „jeż w czerwonej czapce, żółtych rękawiczkach, niebieskiej koszuli i zielonych spodniach”. Aby poprawnie zinterpretować to zdanie, DALL·E musi nie tylko poprawnie komponować każdy element ubioru ze zwierzęciem, ale także tworzyć skojarzenia (czapka, czerwony), (rękawiczki, żółty), (koszula, niebieski) i (spodnie, zielony) bez ich mieszania. To zadanie nazywa się wiązaniem zmiennym i zostało już całkiem szeroko opisane w literaturze przedmiotu.

Sprawdź oferty pracy na TeamQuest

Aktualnie trwa testowanie zdolności DALL·E do robienia tego pod kątem względnego pozycjonowania, układania obiektów w stos i kontrolowania wielu atrybutów.

Im bardziej skomplikowane zdanie tym trudniej

Chociaż DALL·E oferuje już pewien poziom kontroli nad atrybutami i pozycjami niewielkiej liczby obiektów, ostateczny sukces zależy nadal w głównej mierze od tego, jak sformułowany jest podpis (polecenie sformułowane słownie). W miarę wprowadzania coraz większej liczby obiektów DALL·E jest podatny na mylenie skojarzeń między przedmiotami i ich kolorami. Póki co DALL·E jest też wrażliwy na przeformułowanie podpisu: alternatywne, semantycznie równoważne podpisy często nie dają poprawnych interpretacji.

Poprzedni artykuł Skracacze linków lubią Cię śledzić

Następny artykuł Popularne pytania rekrutacyjne z Pythona na stanowisko Junior Python Developer