OpenAI pozamiatało! Nowy model GPT-4o wynosi sztuczną inteligencję na wyższy level

Aleksandra Golenia, 23.05.2024 r.

Z artykułu dowiesz się:

Co to jest GPT-4o
Jakie systemy zabezpieczeń wykorzystano w GPT-4o
Jak wygląda „rozmowa” z GPT-4o
Czy GPT-4o potrafi rozpoznawać emocje i dlaczego
Jak GPT-4o radzi sobie z tłumaczeniem na żywo
Co nowego OpenAI zaoferowało użytkownikom Apple

GPT-4 ma godnego następcę. Dał się już poznać!

Czy to zaskoczenie? Nie do końca. Firma OpenAI przyzwyczaiła nas już do tego, że regularnie i stosunkowo w krótkim czasie tworzy kolejne modele sztucznej inteligencji, a właściwie rozwija to, co doskonałego udało jej się już stworzyć. Zawsze takie nowe rozwiązanie nazywane jest tym flagowym i tym razem nie mogło być inaczej. Wydaje się jednak, że tym razem trudno będzie pobić to najnowsze dokonanie, bowiem GPT-4o naprawdę ma w sobie tyle technologicznego wdzięku, że mógłby nim się podzielić z silną i dużą konkurencją.

GPT-4o dał się bliżej poznać podczas konferencji OpenAI, która odbyła się 13 maja. Podczas tego wydarzenia zaprezentowano produkt w pełnej okazałości i zapewniono, że już wkrótce każdy będzie miał do niego dostęp i to zupełnie za darmo. Tak tak, można już zacierać ręce i szykować się do testów. Wiemy, że GPT-4o to nie kolejny „jakiś” model sztucznej inteligencji, a rozwinięcie tego, co już OpenAI udało się stworzyć. To godny następca GPT-4, który zrewolucjonizował niejedną branżę, w tym te najbardziej stabilne. Tłumacze, programiści i copywriterzy zdecydowanie nie tylko poczuli jego oddech na plecach, ale przekonali się na własnej skórze, że technologia podjęła rękawicę i postanowiła im zagrozić…i jej się to udało.

GPT-4o to nowa odsłona sztucznej inteligencji. Już sama nazwa narzędzia zobowiązuje. Znajdujące się na końcu „o” nie jest efektem przypadku, a to całkowicie zamierzony zabieg. Oznacza nic innego jak „omni”, czyli „wszech” i teraz każdy może sobie tłumaczyć to na swój sposób, ale najlepiej chyba do GPT-4o pasuje po prostu „wszechstronny”. A to dlatego, że model potrafi naprawdę dużo i to w kilku obszarach. Jak podkreśliła Mira Murati:

GPT-4o zapewnia inteligencję na poziomie Chatu GPT-4, ale ma większe możliwości w zakresie tekstu, obrazu i dźwięku.

To już jakaś informacja. Jeśli chodzi o największą nowość i funkcję, która może wywołać duże zdumienie, to jest to dosłowne rozumienie przez model tekstu, głosu i obrazu. Najprościej mówiąc, mamy z nim rozmawiać jak z kolegą, jak równy z równym. Brzmi znajomo? Być może. Już w wersji GPT-3.5, jak i GPT-4 mogliśmy z ChatGPT rozmawiać na całkiem dobrym poziomie. OpenAI postanowił jednak rozwiązać jeden podstawowy problem. We wcześniejszych modelach czatbot musiał korzystać z trzech modeli. Pierwszy był odpowiedzialny za transkrybowanie dźwięku na tekst, drugi analizował dane, a trzeci konwertował znów tekst na dźwięk. Oznaczało to, że narzędzie się czasem zwyczajnie gubiło i traciło np. ton głosu czy dźwięki w tle. Narzędzie „myślało” też jakiś czas. Z kolei GPT-4o ma reagować zdecydowanie szybciej – jego reakcja na sygnały wejściowe audio ma wynosić zaledwie 232 ms. Jest to jednak uzależnione od poziomu skomplikowania danych i należy tę wartość uśrednić do ok. 320 ms. To i tak imponująca umiejętność.

GPT-4o pod parasolem ochronnym, czyli solidne systemy bezpieczeństwa

Oczywiście, ponieważ dzisiaj bezpieczeństwo danych jest priorytetem, jeśli chodzi o projekty cyfrowe. Zwyczajnie się boimy, że zostaniemy zdemaskowani, a poufne informacje o nas trafią do osób do tego nieupoważnionych. To się dzieje każdego dnia, dlatego specjaliści za wyzwanie przyjęli ochronę przed cyberprzestępczością. Udaje im się to raz z lepszym, innym razem z nieco gorszym skutkiem.

OpenAI we wszystkich funkcjach GPT-4o zastosował techniki polegające na filtrowaniu danych, jakie zostały użyte do treningów. To przełożyło się na większe bezpieczeństwo. Jak wynika z wewnętrznej oceny cyberbezpieczeństwa, GPT-4o nie przekracza średniego ryzyka w żadnej z kategorii. W trakcie testów GPT-4o poddano ponadto red teamingowi. Jest to autoryzowana symulacja ataku oraz ingerencji w odpowiedzi. Jaki był wynik? Test odbył się przy udziale ekspertów z zakresu psychologii społecznej. Celem była identyfikacja zagrożenia, które mogłoby pojawić się w najnowszej wersji chatu. W efekcie odkryte zagrożenia zostały natychmiast wyeliminowane. Co więcej, opracowano konkretną taktykę działania na wypadek, gdyby podobne zdarzenia miały miejsce w przyszłości. Można więc twierdzić, że GPT-4o został świetnie zabezpieczony przed tym, czego się boimy, spędzając dużo czasu w cyber rzeczywistości…a robimy to coraz częściej.

Junior C# / FrontEnd developer 9000 - 12000 PLN Formy umowy: Umowa o pracę B2B / Kontrakt

Warszawa

Aplikuj

Head of Social Media 8000 - 11000 PLN Formy umowy: B2B / Kontrakt

Trójmiasto

Aplikuj

Specjalista ds. Sprzętu Komputerowego 9000 - 12000 PLN Formy umowy: Umowa o pracę

Warszawa

Aplikuj

Programista Kotlin 20000 - 28000 PLN Formy umowy: B2B / Kontrakt

Praca zdalna

Aplikuj

Programista Mainframe (z/OS, Assembler) 28000 - 38000 PLN Formy umowy: Umowa o pracę B2B / Kontrakt

Praca zdalna

Aplikuj

Z GPT-4o porozmawiasz jak z kumplem…w czasie rzeczywistym

To chyba najbardziej interesuje potencjalnych użytkowników. Ci, którzy mieli okazję poznać GPT-4, wiedzą, czym jest rozmowa ze sztuczną inteligencją. Zaskoczenie było zapewne duże, kiedy nagle można rozmawiać z czymś, co istnieje tylko w wirtualnej rzeczywistości, co więcej – na naprawdę wysokim poziomie. Z GPT-4o ma się rozmawiać jeszcze lepiej. Niektórzy nawet twierdzą, że taka rozmowa ma nie odbiegać pod żadnym względem od tej, którą prowadzimy z dobrym kolegą. Można się więc zapomnieć, kto, a właściwie co jest po drugiej stronie.

GPT-4o reaguje na wprowadzane dane w postaci tekstu, obrazu i dźwięku, a robi to w zdecydowanie krótszym czasie niż jego poprzednik GPT-4. Na podstawie tego jest w stanie wygenerować zarówno tekst, jak i obraz lub dźwięk, to już zależy od nas, czego od modelu oczekujemy. Z chatem rozmawia się bardzo przyjemnie i co ważne, rozmowa jest niezwykle płynna. Reakcja na sygnały audio na poziomie 232 milisekund jest podobna do czasu reakcji człowieka w trakcie rozmowy. To raczej zawrotne tempo, jeśli chodzi o sztuczną inteligencję, dotąd niespotykane. Poza tym zrozumienie intencji człowieka jest na bardzo wysokim poziomie.

Oczywiście podczas prezentacji GPT-4o w trakcie konferencji nie wszystko poszło w tej kwestii gładko. Błędy zostały wytknięte. Głos asystentki AI czasem się zacinał, a odpowiedzi wcale nie były udzielane z tak dużą szybkością. Wpadki się jednak zdarzają, ale pamiętajmy, że to dopiero początek „życia” GPT-4o, ma prawo błądzić i się mylić.

GPT-4o prześwietli Cię na wylot. Rozpoznaje emocje i kontekst

Czy to największe zaskoczenie, jeśli chodzi o GPT-4o? Być może! Tego raczej dotychczas nie oczekiwano od AI, chociaż gdzieś z tyłu głowy niektórzy mieli myśl, że wkrótce sztuczna inteligencja będzie potrafiła odczytywać nasze emocje. Tak się też stało.

W poprzednich wersjach jeden z modeli transkrybował dźwięk na tekst, potem drugi go pobierał i trzeci konwertował z powrotem na dźwięk. Taki rozbudowany proces pozbawiał model głównego źródła informacji o oddechu rozmówcy, jego tonie wypowiedzi i dźwiękach w tle. Tak naprawdę analizie podlegał tylko czysty tekst. No właśnie, GPT-4 nie był w stanie ocenić emocji człowieka, nie miał po prostu dostępu do danych, które by mu na to pozwalały.

GPT-4o ma nie pomijać żadnych danych, a więc w trakcie analizy ma uwzględniać też wszystkie towarzyszące tekstowi czynniki. To oznacza, że model jest w stanie ocenić, czy jego rozmówca jest zadowolony, smutny, podirytowany, zaskoczony, a może podekscytowany. Ponadto potrafi skutecznie rozpoznać kontekst wypowiedzi, świetnie rozumie sarkazm i żart.

GPT-4o wygryzie tłumaczy?

Tłumacze symultaniczni mają prawo czuć zagrożenie ze strony GPT-4o? Trochę tak, ponieważ model świetnie radzi sobie z tłumaczeniem tekstu na żywo w kilkunastu językach. Ta funkcja została wyraźnie udoskonalona. W testach udział wzięło 20 języków, w tym niemiecki, arabski i hiszpański. W każdym z przypadków zaobserwowano wyraźną kompresję tokenizera. Co to oznacza? GPT-4o potrzebuje mniej pamięci operacyjnej do przetworzenia danych.

No właśnie, GPT-4o jest w stanie w czasie rzeczywistym przetłumaczyć tekst z jednego języka na język docelowy. Dzieje się to praktycznie natychmiast. Wyobraź sobie sytuację, że zwiedzasz właśnie Mediolan i nie znasz języka włoskiego. Przechodząc obok rodowitych Włochów, GPT-4o jest w stanie Ci przetłumaczyć, o czym rozmawiają. Czy podsłuchujesz? Może trochę. Ale przyznaj, jak duża pomoc może to być w restauracji, sklepie, podczas zwiedzania zabytków z przewodnikiem czy po prostu konferencji, która jest prowadzona w obcym języku…

Użytkownicy Apple zyskali specjalne względy OpenAI - GPT-4o na komputery Apple

To kolejna nowość, jaką OpenAI postanowiło wprowadzić w GPT-4o. Tym razem firma faworyzuje Apple i to właśnie fanom tej firmy wychodzi naprzeciw. W trakcie konferencji zaprezentowano nową dedykowaną aplikację na komputery osobiste z systemem macOS. Chyba wielu użytkowników tych urządzeń właśnie na to czekało. To prosta apka, działa podobnie jak te dedykowane na urządzenia z systemem operacyjnym Android i iOS. Na początek aplikację będą mogli pobrać posiadacze subskrypcji ChatGPT Plus. Być może potem taką możliwość zyskają też inni.

Apka pozwala na wywołanie czatbota na poczekaniu i rozmowę z nim bez wpisywania danych na klawiaturze. Co więcej, ma być ona w pierwszych tygodniach dostępna za darmo. Jest też plan, żeby podobne oprogramowanie wypuścić na Windowsa. Póki co to jednak tylko zapowiedź, która może, ale nie musi się wydarzyć. Jeśli tak się jednak stanie, to na pewno dopiero za kilka miesięcy. Każda nowa funkcjonalność to ogrom pracy. Teraz OpenAI koncentruje się mocno na tym, aby GPT-4o był najbardziej doskonały w swojej klasie. Model już jest i można z niego korzystać. Jak to jednak wiemy z doświadczenia, będzie wymagał pewnych zmian. OpenAI ma więc co robić.

GPT-4o udowadnia, że komunikacja człowieka z technologią nie osiągnęła jeszcze granic swoich możliwości. Kolejny raz została wyniesiona na wyższy poziom. Dotąd żadne inne narzędzie nie oferowało możliwości tak intuicyjnej, realnej i prawdziwej rozmowy ze sztuczną inteligencją. Brawo OpenAI!

Tagi: #ai #openai #gpt-4o #gpt-4

Poprzedni artykuł Konferencja Google I/O 2024 już za nami! Google zaprezentowało nowości

Następny artykuł Dobre praktyki pisania CV. Siedem praktycznych porad rekrutera