Sieć neuronowa o nazwie DALL·E tworzy obrazy z podpisów tekstowych. Posługuje się szerokim zakresem pojęć wyrażanych językiem naturalnym.
12 miliardów parametrów
Na stronie projektu openai.com znajduje się między innymi opis modelu w wersji GPT-3 o 12 miliardach parametrów, wyszkolonego do generowania obrazów z opisów tekstowych przy użyciu zestawu danych zawierającego pary tekst-obraz. Ma on całkiem zróżnicowany zestaw możliwości, w tym tworzenie antropomorficznych wersji zwierząt i obiektów, łączenie niepowiązanych ze sobą pojęć w wiarygodny sposób, renderowanie tekstu i stosowanie transformacji do istniejących obrazów.
Zastosowanie GPT-3 udowodniło, że język może być używany do instruowania dużej sieci neuronowej, aby wykonywała różnorodne zadania związane z generowaniem tekstu. Ten sam typ sieci neuronowej może być również używany do generowania obrazów o wysokiej wierności w stosunku do tego co zostało zapisane w języku naturalnym. Dzięki temu w zasięgu człowieka jest teraz manipulowanie koncepcjami wizualnymi za pomocą języka.
Tekst jako tokeny
DALL·E odbiera zarówno tekst jak i obraz jako pojedynczy strumień danych zawierający do 1280 tokenów i jest trenowany przy użyciu maksymalnego prawdopodobieństwa wygenerowania wszystkich tokenów jeden po drugim. Ale czym jest ten token? Stanowi go dowolny symbol z odrębnego słownika; dla ludzi każda angielska litera jest tokenem z 26-literowego alfabetu. Słownik DALL·E obejmuje tokeny zarówno dla pojęć tekstowych, jak i graficznych. Konkretnie, każdy podpis obrazu jest reprezentowany przy użyciu maksymalnie 256 tokenów zakodowanych w byte-pair-encoding o rozmiarze słownika 16384, a obraz jest reprezentowany za pomocą 1024 tokenów o rozmiarze słownika 8192. Podczas treningu obrazy są zaś wstępnie przetwarzane do rozdzielczości 256x256.
Ta procedura „szkoleniowa” pozwala nie tylko generować obraz od zera, ale także regenerować dowolny prostokątny obszar istniejącego obrazu, który rozciąga się do prawego dolnego rogu, w sposób zgodny z tym co użytkownik zapisał w formie tekstowej.
Zdolna bestia
DALL·E jest w stanie stworzyć wiarygodne obrazy dla wielu różnych zdań. Analizowana jest przy tym kompozycyjna struktura języka. Nie jest używane właściwie żadne ręczne wybieranie.
Jednoczesne sterowanie wieloma obiektami, ich atrybutami i relacjami przestrzennymi stanowi zupełnie nowe wyzwanie. Na przykład popatrzmy na takie wyrażenie: „jeż w czerwonej czapce, żółtych rękawiczkach, niebieskiej koszuli i zielonych spodniach”. Aby poprawnie zinterpretować to zdanie, DALL·E musi nie tylko poprawnie komponować każdy element ubioru ze zwierzęciem, ale także tworzyć skojarzenia (czapka, czerwony), (rękawiczki, żółty), (koszula, niebieski) i (spodnie, zielony) bez ich mieszania. To zadanie nazywa się wiązaniem zmiennym i zostało już całkiem szeroko opisane w literaturze przedmiotu.
Sprawdź oferty pracy na TeamQuest
Aktualnie trwa testowanie zdolności DALL·E do robienia tego pod kątem względnego pozycjonowania, układania obiektów w stos i kontrolowania wielu atrybutów.
Im bardziej skomplikowane zdanie tym trudniej
Chociaż DALL·E oferuje już pewien poziom kontroli nad atrybutami i pozycjami niewielkiej liczby obiektów, ostateczny sukces zależy nadal w głównej mierze od tego, jak sformułowany jest podpis (polecenie sformułowane słownie). W miarę wprowadzania coraz większej liczby obiektów DALL·E jest podatny na mylenie skojarzeń między przedmiotami i ich kolorami. Póki co DALL·E jest też wrażliwy na przeformułowanie podpisu: alternatywne, semantycznie równoważne podpisy często nie dają poprawnych interpretacji.