Blog IT, Blog Marketing

Głębokie uczenie i 2.5D – zupełnie nowe podejście do dźwięku przestrzennego

Głębokie uczenie i 2.5D – zupełnie nowe podejście do dźwięku przestrzennego

Maciej Olanicki , 27.12.2018 r.

Głębokie uczenie w pierwszej kolejności budzi skojarzenia z przetwarzaniem obrazu – to dzięki niemu możliwe jest rozpoznawanie obiektów na filmach i obrazkach i dalsze przetwarzanie, co przeciętnemu Kowalskiemu sprzedawane jest na wyrost jako sztuczna inteligencja. Ale głębokie uczenie znajduje swoje zastosowania także w przetwarzaniu dźwięku – duet naukowców z Uniwersytetu Teksańskiego oraz działu badawczego Facebooka opracował metodę na tworzenie zaawansowanych trójwymiarowych krajobrazów dźwiękowych wyłącznie podstawie zwykłego dźwięku mono.

Dźwięk przestrzenny wymyślony na nowo

Jeśli chodzi o obraz, to zarówno naukowcy jak i producenci układów graficznych a także monitorów czy telewizorów prześcigają się w rozdzielczościach, rozpiętości tonalnej, częstotliwości odświeżania czy efektach 3D. Jeśli jednak chodzi o dźwięk to w ostatniej kwestii w zasadzie zatrzymaliśmy się na wielokolumnowych systemach, w których źródło dźwięku jest identyfikowane po prostu na podstawie umiejscowienia nadajnika. To zaś wymaga odpowiedniej geometrii pomieszczenia i wydatków na sam sprzęt.

Człowiek posiada jednak naturalną umiejętność rozpoznawania umiejscowienia źródeł dźwięku – wiemy przecież, gdzie orientacyjnie znajduje się na przykład szczekający pies, mimo że jeszcze go nie widzimy. Kluczową rolę w tym procesie odgrywa różnica między momentem odebrania fali przez ucho bliższe źródłu i ucho dalsze. Kolejnym czynnikiem jest asymetryczny kształt małżowin, które zniekształcają dźwięk inaczej w zależności od tego, jak pada na nią fala dźwiękowa. Na tej podstawie mózg jest w stanie umiejscawiać źródła dźwięku w trójwymiarowej przestrzeni.

5.1? 7.1? Czas na dźwięk 2.5D

Naukowcy musieli zatem stanąć przed wyzwaniem odtworzenia zniekształceń, opóźnień i symulowania ich w dźwiękach odtwarzanych przez słuchawki. Rzecz w tym, że utworzenie jednego modelu dla wszystkich nie jest możliwe, gdyż kształty ludzkich małżowin różnią się. W rezultacie także zniekształcenia informujące mózg o położeniu źródła dźwięku są dla każdego nieco inne. Z pomocą trójwymiarowych modelów małżowiny opracowano optymalny schemat zniekształceń, który będzie mniej lub bardziej skuteczny dla każdego. Zastosowano metody znane z nagrywania binauralnego – mikrofony zbierające próbki były umiejscowione wewnątrz uszu.

Co ważne, oryginalny dźwięk może być nawet zwykłą ścieżką mono, gdyż to nie jego jakość odgrywa tu kluczową rolę, lecz jakość zniekształceń. Kolejną trudność stanowiło to, że różne scenariusze generują różnie zniekształcenia – dźwięk wydawany przez psa będącego w odległości 1 metra będzie zniekształcany zupełnie inaczej niż w przypadku odległości 11 metrów. To właśnie tu kluczową rolę odegrało maszynowe uczenie – naukowcy nagrali blisko 2000 próbek dźwiękowych różniących się lokalizacją źródła, a zaawansowane algorytmy na ich podstawie były w stanie same generować żądane zniekształcenia.

Metodę uzyskiwania tego efektu nazwano 2.5D i może ona być początkiem spektakularnego postępu nad dźwiękiem przestrzennym we wszelkich maści symulacjach, filmie, muzyce oraz grach komputerowych. O rezultatach prac można przekonać się samodzielnie, przesłuchując osadzony powyżej film w dowolnych słuchawkach. Próbki obejmują między innymi grę na gitarze, ruchliwą ulicę czy improwizację na dwa instrumenty. Ze szczegółami samych prac można zapoznać się na stronie Uniwersytetu Cornella.

Najnowsze oferty pracy:

Polecane wpisy na blogu IT:

Szukasz pracownika IT?

Dostarczymy Ci najlepszych specjalistów z branży IT. Wyślij zapytanie

Wyrażam zgodę TeamQuest Sp. z o.o. na przetwarzanie moich danych osobowych w celu marketingu produktów i usług własnych TeamQuest, w tym na kontaktowanie się ze mną w formie połączenia telefonicznego lub środkami elektronicznymi.
Administratorem podanych przez Ciebie danych osobowych jest TeamQuest Sp. z o.o., z siedzibą w Warszawie (00-814), ul. Miedziana 3a/21, zwana dalej „Administratorem".
Jeśli masz jakiekolwiek pytania odnośnie przetwarzania przez nas Twoich danych, skontaktuj się z naszym Inspektorem Ochrony Danych (IOD). Do Twojej dyspozycji jest pod adresem e-mail: office@teamquest.pl.
W jakim celu i na jakiej podstawie będziemy wykorzystywać Twoje dane? Dowiedz się więcej