Z artykułu dowiesz się:
- Czym jest Sora
- Jakie są możliwości nowego dzieła OpenAI
- Jak działa Sora do generowania krótkich filmów wideo
- Czy Sora ma słabe punkty
- W którym kierunku zmierza sztuczna inteligencja do generowania wideo
Fotorealne minutowe filmy od Sory
Filmy generowane przez sztuczną inteligencję Sora są nie do odróżnienia od tych, które powstają przy pomocy kamery i współpracy dużego zespołu specjalistów. W Internecie już można oglądać jej dzieła i wcale nieświadomie się nimi zachwycać. Potem okazuje się, że ta dziewczyna tańcząca w deszczu nie istnieje, a te samoloty w tle nigdy tamtędy nie leciały. Trochę to abstrakcja, ale obraz wygląda naprawdę niezwykle realistycznie.
Na chwilę obecną Open AI zdecydowało się, że Sora rozpocznie fazę testową. Nie chce wypuszczać swojego nowego produktu na głęboką wodę, tym bardziej że przepisy dotyczące korzystania ze sztucznej inteligencji wciąż się zaostrzają. Nikt nie luzuje założonego już w pewnym sensie kagańca na AI. Jak mówią przedstawiciele OpenAI:
Dziś Sora staje się dostępna dla testerów "red team", w celu oceny krytycznych obszarów pod kątem szkód lub zagrożeń. Udzielamy również dostępu wielu artystom wizualnym, projektantom i filmowcom, aby uzyskać opinie na temat tego, jak ulepszyć model, aby był jak najbardziej pomocny dla kreatywnych profesjonalistów.
Dokładnie tak, firma liczy na rzetelną ocenę. Chce, aby Sora była nie tylko najlepiej radzącą sobie z generowaniem wideo sztuczną inteligencją, ale czymś zupełnie bardziej wartościowym. Ma służyć specjalistom, którzy dzięki niej będą mogli realizować swoje jeszcze bardziej kreatywne i zaawansowane pomysły. Jest więc szansa, że Sora zmieni branżę filmową, ale na pewno nie stanie się to dzisiaj, jutro czy za rok, to dopiero początek.
Sora potrafi na podstawie tekstu generować minutowe filmy wideo. Nie są to więc jakieś zawrotnie długie produkcje, ale nie taki był początkowy cel OpenAI. Chodziło o to, aby były to wideo o wysokim poziomie wiarygodności. Pozwolono sobie na większe ograniczenia w kwestii długości na rzecz bardziej fotorealistycznych efektów. I to się udało. Oczywiście na tym nie koniec. Sora świetnie radzi sobie także z grafiką komputerową, jak i wizjami abstrakcyjnymi.
Obserwujemy ogromny postęp technologiczny, jeśli chodzi o rozwój sztucznej inteligencji potrafiącej generować materiały wideo. Sora zaskoczyła, ponieważ jeszcze rok temu nikt by nie przypuszczał, że AI może tworzyć tak bardzo rzeczywiste obrazy o płynnym ruchu. Dużo wskazuje na to, że ta machina dopiero ruszyła i już za kilka lat osiągnie swój szczyt perfekcji. Jest jednak pewien problem…nie wszystkim się to podoba. Procedury generowania treści przez sztuczną inteligencją podlegają coraz większym zaostrzeniom. Zaciska się na niej kaganiec, aby ograniczyć ryzyko technologicznej swobody. Przecież sztuczna inteligencja może zrobić tak samo dużo dobrego, jak i złego, tego drugiego władze obawiają się jednak bardziej.
Zdolna bestia. Sora od OpenAI potrafi znacznie więcej
Sora to prawdziwa rewolucja, ponieważ potrafi więcej niż dotychczasowe narzędzia o podobnym przeznaczeniu. Ona nie tylko wykonuje to, o co prosi ją użytkownik, a rozumie doskonale to, jak poszczególne rzeczy i zjawiska funkcjonują. Zwyczajnie zna prawa fizyki. Kiedy zostaje poproszona o rozpryskiwanie się wody po uderzeniu w taflę kamieniem, nie zrobi tego przypadkowo. Woda rozpryśnie się w miejscu styku kamienia z wodą. To się dopiero nazywa inteligencja.
Poza tym Sora ma zdolność do ożywiania już istniejącego obrazu. Jeśli mamy już obraz statyczny, ona sprawi, że będzie się poruszał w odpowiedni sposób. Wystarczy, że wpiszemy odpowiedni prompt z poleceniem, co chcemy, aby się na obrazie wydarzyło, i gotowe. Zmiany można wprowadzić też już we wcześniej stworzonym wideo. Żadne wyzwanie dla Sory, aby na górskich zboczach pojawił się śnieg, na morskich falach surferzy, a w naturalnej scenerii więcej drzew i zwierząt.
Na tym nie koniec możliwości i talentu Sory. Jeśli mamy dwa materiały wideo i chcemy je połączyć w jedno, to już nic nie stoi na przeszkodzie. Nie ma problemu, aby dinozaury z przeszłości znalazły się w jednej chwili na nadbałtyckiej plaży z teraźniejszości. Sora zaskakuje również w kwestii samych emocji. Ukazanie ich w tak autentyczny sposób, jak to robi, wymaga niezwykłych zdolności interpretacji podpowiedzi użytkownika. Doskonale radzi sobie z generowaniem złożonych scen i szczegółami, na które czasem zwyczajnie nie zwracamy uwagi przy pierwszym kontakcie z wideo. Jednak już za drugim i trzecim razem pewne niedoskonałości łatwiej jest nam wyłapać, zwyczajnie rzucają się w oczy. OpenAI cały czas nad tym pracuje, ale trzeba przyznać, że już na tym etapie można mówić o ogromnym osiągnięciu.
Jak działa Sora? To ciekawe…
Mechanizm działania sztucznej inteligencji nie jest już owiany tajemnicą. Mówi się o nim coraz więcej i głośniej. Chodzi o to, aby uświadamiać ludzi, z czym mają do czynienia, oswoić ich z tym, co postrzegane jest często jako coś abstrakcyjnego i mocno ingerującego w ich rzeczywistość, czasem naruszając tym samym ich strefę komfortu.
Sora działa w modelu dyfuzyjnym, to rozwinięty i bardziej złożony system, który wcześniej generował obrazy w modelu DALL-E. Z perspektywy użytkownika wydaje się być to naprawdę proste. Nie każdego przecież interesuje to, co dzieje się za kulisami, chociaż naprawdę może to ujawnić wiele tajemnic. Użytkownik wpisuje opis tego, co ma się wydarzyć na filmie. Im dokładniej to zrobi, tym bardziej wideo będzie odzwierciedlać jego wizję. Zatem użytkownik też musi mieć określone zdolności i być chociaż częściowo świadomym, jak działa sztuczna inteligencja. Następnie system generuje wideo, które początkowo przypomina statyczny szum. Spokojnie, to tylko pierwotna wersja, która w dalszej kolejności jest przekształcana tak, aby pierwotny chaos zaczął przypominać to, co rzeczywiście znalazło się w opisie.
Bardzo dużym osiągnięciem OpenAI jest to, że Sora generuje cały film jednocześnie. Nie przypomina on więc zlepku przypadkowych scen, całość jest spójna, a poszczególne sceny są od siebie zależne, jedna płynnie przechodzi w kolejną. Co więcej, na raz generuje wszystkie obiekty dla całej długości filmu. Nie ma więc sytuacji, że niektóre przedmioty znikają w tajemniczych okolicznościach i zmieniają niekontrolowanie swoją formę. Mamy do czynienia ze zbiorem mniejszych jednostek danych, które potocznie nazywamy „skrawkami”. Każdy z nich jest odpowiednikiem tokena z GPT. Sora ujednolica sposób reprezentowania danych, dzięki czemu nie mamy wrażenia, że coś zadziało się poza kontrolą człowieka.
Doskonałość nie istnieje. Sora też nie jest idealna
Byłoby zbyt pięknie i człowiek nie miałby co już rozwijać sztucznej inteligencji. Wciąż jest nad czym pracować, chociaż Sora naprawdę pokazuje już dużo możliwości AI. Nie wszystko jednak idzie po myśli twórców. Przedstawiciele OpenAI przyznają, że Sora ma słabe punkty i wcale ich nie ukrywają, a mówią o nich głośno, podkreślając, że cały czas nad nimi pracują. O co więc chodzi? Twórcy wyjaśniają:
Może mieć trudności z dokładną symulacją fizyki złożonej sceny i może nie rozumieć konkretnych przypadków przyczyny i skutku. Na przykład, osoba może ugryźć ciasteczko, ale później ciasteczko może nie mieć śladu ugryzienia.
Możemy to sobie wyobrazić. Chodzi o to, że mamy działanie, ale brakuje skutku. To tak trochę, jak zjeść ciastko i mieć ciastko, w rzeczywistym świecie to niemożliwe, ale w wirtualnym dlaczego nie.
Poza tym Sora może mieć trudności w rozpoznawaniu lewej i prawej strony. Jest trochę jak dziecko, czyli działa na zasadzie metody prób i błędów, raz się udaje, a innym razem już niekoniecznie. Czasem to nie ma znaczenia, ale już niekiedy kluczowe. Wyobraźmy sobie sytuację, że stoi człowiek i podchodzi do niego inna osoba z tyłu, dotykając jego prawego ramienia. Zamiast więc odwrócić się w prawo, odwraca się w lewo. Ewidentnie widać, że coś jest nie tak. Niby nic takiego, a trochę niezrozumiała sytuacja.
Wiadomo też, że OpenAI musi popracować jeszcze nad precyzyjnymi opisami wydarzeń, które mają miejsce w czasie. System nie najlepiej radzi sobie czasem z podążaniem za określoną trajektorią kamery. Ale pamiętajmy, że to jeszcze nie jest gotowe narzędzie, więc dajmy mu szansę się rozwinąć.
OpenAI wypuścił wilka z lasu? Sora może być pułapką
Skoro to początek, to co będzie później? No właśnie, w przyszłość należy patrzeć zarówno z dużą fascynacją i ciekawością, jak też zachowawczością i ostrożnością. Nie od dziś wiadomo, że sztuczna inteligencja to nie tylko możliwości i zagrożenia. OpenAI poruszyło za ryzykowne sznurki. Na pewno Sora jest narzędziem, które uwalnia ogromną kreatywność. Pozwala tworzyć treści wideo, które dotychczas wymagały długiego czasu i ogromnych nakładów pracy. Teraz wystarczy nauczyć się rozmawiać ze sztuczna inteligencją, aby w kilka chwil powstało coś naprawdę wyjątkowego. Jest jednak druga strona medalu tego narzędzia. Branża filmowa zaczyna zmieniać swój profil. Wielu producentów już interesuje się nowym dziełem OpenAI, sądząc, że dzięki niemu mogą ograniczyć koszty i wydatki, zyskując przy tym jeszcze bardziej kreatywne filmy. To może oznaczać, że kolejni specjaliści zostaną wygryzieni przez sztuczna inteligencję.
Oprócz tego, Sora może ułatwić tworzenie fake newsów, treści propagandowych, a nawet pornograficznych. A to już poważne wykroczenie. Jej przyszłość jest więc niepewna. Aby mogła istnieć, potrzebuje ograniczeń. W przeciwnym razie będzie torowała drogę do tworzenia, publikacji i rozpowszechniania niedozwolonych, krzywdzących i nieprawdziwych treści. Już niejeden wpadł na ten pomysł wykorzystania Sory.
Sora już zmienia branżę filmową, chociaż do tego, aby całkowicie przejęła nad nią władzę, droga jeszcze daleka. Zapewne to się nigdy nie stanie, ponieważ sztuczna inteligencja owszem będzie się rozwijała, ale ma też swoje granice. Na chwilę obecną możemy założyć, że podobne narzędzia będą ułatwiać pracę filmowców, ale raczej trudno jest mówić o tym, że będą samowystarczalne.