Głębokie uczenie w pierwszej kolejności budzi skojarzenia z przetwarzaniem obrazu – to dzięki niemu możliwe jest rozpoznawanie obiektów na filmach i obrazkach i dalsze przetwarzanie, co przeciętnemu Kowalskiemu sprzedawane jest na wyrost jako sztuczna inteligencja. Ale głębokie uczenie znajduje swoje zastosowania także w przetwarzaniu dźwięku – duet naukowców z Uniwersytetu Teksańskiego oraz działu badawczego Facebooka opracował metodę na tworzenie zaawansowanych trójwymiarowych krajobrazów dźwiękowych wyłącznie podstawie zwykłego dźwięku mono.
Dźwięk przestrzenny wymyślony na nowo
Jeśli chodzi o obraz, to zarówno naukowcy jak i producenci układów graficznych a także monitorów czy telewizorów prześcigają się w rozdzielczościach, rozpiętości tonalnej, częstotliwości odświeżania czy efektach 3D. Jeśli jednak chodzi o dźwięk to w ostatniej kwestii w zasadzie zatrzymaliśmy się na wielokolumnowych systemach, w których źródło dźwięku jest identyfikowane po prostu na podstawie umiejscowienia nadajnika. To zaś wymaga odpowiedniej geometrii pomieszczenia i wydatków na sam sprzęt.
Człowiek posiada jednak naturalną umiejętność rozpoznawania umiejscowienia źródeł dźwięku – wiemy przecież, gdzie orientacyjnie znajduje się na przykład szczekający pies, mimo że jeszcze go nie widzimy. Kluczową rolę w tym procesie odgrywa różnica między momentem odebrania fali przez ucho bliższe źródłu i ucho dalsze. Kolejnym czynnikiem jest asymetryczny kształt małżowin, które zniekształcają dźwięk inaczej w zależności od tego, jak pada na nią fala dźwiękowa. Na tej podstawie mózg jest w stanie umiejscawiać źródła dźwięku w trójwymiarowej przestrzeni.
5.1? 7.1? Czas na dźwięk 2.5D
Naukowcy musieli zatem stanąć przed wyzwaniem odtworzenia zniekształceń, opóźnień i symulowania ich w dźwiękach odtwarzanych przez słuchawki. Rzecz w tym, że utworzenie jednego modelu dla wszystkich nie jest możliwe, gdyż kształty ludzkich małżowin różnią się. W rezultacie także zniekształcenia informujące mózg o położeniu źródła dźwięku są dla każdego nieco inne. Z pomocą trójwymiarowych modelów małżowiny opracowano optymalny schemat zniekształceń, który będzie mniej lub bardziej skuteczny dla każdego. Zastosowano metody znane z nagrywania binauralnego – mikrofony zbierające próbki były umiejscowione wewnątrz uszu.
Co ważne, oryginalny dźwięk może być nawet zwykłą ścieżką mono, gdyż to nie jego jakość odgrywa tu kluczową rolę, lecz jakość zniekształceń. Kolejną trudność stanowiło to, że różne scenariusze generują różnie zniekształcenia – dźwięk wydawany przez psa będącego w odległości 1 metra będzie zniekształcany zupełnie inaczej niż w przypadku odległości 11 metrów. To właśnie tu kluczową rolę odegrało maszynowe uczenie – naukowcy nagrali blisko 2000 próbek dźwiękowych różniących się lokalizacją źródła, a zaawansowane algorytmy na ich podstawie były w stanie same generować żądane zniekształcenia.
Metodę uzyskiwania tego efektu nazwano 2.5D i może ona być początkiem spektakularnego postępu nad dźwiękiem przestrzennym we wszelkich maści symulacjach, filmie, muzyce oraz grach komputerowych. O rezultatach prac można przekonać się samodzielnie, przesłuchując osadzony powyżej film w dowolnych słuchawkach. Próbki obejmują między innymi grę na gitarze, ruchliwą ulicę czy improwizację na dwa instrumenty. Ze szczegółami samych prac można zapoznać się na stronie Uniwersytetu Cornella.