Sztuczna inteligencja tłumaczy stare języki

Marcin Sarna, 26.10.2020 r.

System opracowany w MIT CSAIL ma na celu pomóc lingwistom w rozszyfrowaniu języków, które zaginęły w historii.

Język może martwy ale ciekawy

Opracowując system pomagający rozszyfrować utracone języki, naukowcy z MIT zbadali język ugarycki, który jest powiązany z hebrajskim i został wcześniej przeanalizowany i odszyfrowany przez językoznawców. Czyżby sztuczna inteligencja mogła służyć także bardziej wzniosłym celom niż zwolnienia pracowników?

Ostatnie badania sugerują, że większość języków, które kiedykolwiek istniały, nie jest już używana. Dziesiątki tych martwych języków są również uważane za zagubione lub „nierozszyfrowane” - to znaczy, że nie wiemy wystarczająco dużo o ich gramatyce, słownictwie lub składni, aby móc faktycznie zrozumieć ich teksty. Niestety, w przypadku większość z nich mamy tylko tak minimalne zapisy, że naukowcy nie mogą ich rozszyfrować za pomocą algorytmów tłumaczenia maszynowego, takich jak Google Translate.

Języki działają na podobnej zasadzie

Naukowcy z Laboratorium Informatyki i Sztucznej Inteligencji MIT ( Computer Science and Artificial Intelligence Laboratory, CSAIL) dokonali właśnie poważnego rozwoju w tej dziedzinie. Stworzyli system, który okazał się zdolny do automatycznego rozszyfrowania utraconego języka, bez konieczności posiadania zaawansowanej wiedzy o jego związku z innymi językami. Pokazali również, że ich system może sam określać relacje między językami, i wykorzystali go do potwierdzenia niedawnych badań sugerujących, że język iberyjski nie jest w rzeczywistości spokrewniony z baskijskim.

Ostatecznym celem zespołu jest umożliwienie systemowi rozszyfrowania utraconych języków, które wymykały się lingwistom od dziesięcioleci, używając zaledwie kilku tysięcy słów.

Senior Java Programmer 23000 - 28000 PLN Formy umowy: B2B / Kontrakt

Warszawa

Aplikuj

Regular Network Engineer 15000 - 20000 PLN Formy umowy: B2B / Kontrakt

Łódź

Aplikuj

Senior Frontend Developer (React + React Native) 20000 - 24000 PLN Formy umowy: Umowa o pracę B2B / Kontrakt

Praca zdalna

Aplikuj

IoT & Data Engineer 13000 - 15000 PLN Formy umowy: B2B / Kontrakt

Łódź

Aplikuj

Production Coordinator / Representant Product Dev Formy umowy: B2B / Kontrakt

China

Aplikuj

Algorytm, czyli jak to działa?

Profesor MIT Regina Barzilay przekazała, że system opiera się na kilku zasadach opartych na spostrzeżeniach z językoznawstwa historycznego, takich jak fakt, że języki generalnie ewoluują tylko w określony, przewidywalny sposób. Na przykład: dany język rzadko dodaje lub usuwa cały dźwięk ale jeśli już do tego dochodzi to prawdopodobnie wystąpią pewne substytucje dźwiękowe. Słowo z „p” w języku rodzicielskim może zmienić się na „b” w języku potomnym, ale zmiana na „k” jest mniej prawdopodobna ze względu na znaczną lukę w wymowie.

Sprawdź oferty pracy na TeamQuest

Uwzględniając te i inne ograniczenia językowe, Barzilay i doktorant MIT, Jiaming Luo, opracowali algorytm rozszyfrowywania, który może obsłużyć ogromną przestrzeń możliwych transformacji i niedostatek danych wejściowych. Algorytm uczy się osadzać dźwięki języka w wielowymiarowej przestrzeni, w której odzwierciedlone są różnice w wymowie. To umożliwia im uchwycenie odpowiednich wzorców zmian językowych i wyrażenie ich jako ograniczeń obliczeniowych. Powstały model może segmentować słowa w starożytnym języku i odwzorowywać je na odpowiedniki w pokrewnym języku.

Pierwszy był ugarycki

Projekt opiera się na artykule, który Barzilay i Luo napisali w zeszłym roku, w którym rozszyfrowano martwe języki Ugaritic i Linear B, których odszyfrowanie zajmowało poprzednio dekady. Jednak kluczową różnicą w stosunku do tego projektu było to, że zespół wiedział, że języki te były powiązane odpowiednio z wczesnymi formami hebrajskiego i greckiego. W nowym systemie algorytm sam już wnioskuje o związkach między językami.

Proponowany algorytm może ocenić bliskość między dwoma językami; w rzeczywistości podczas testowania na znanych językach może nawet dokładnie zidentyfikować rodziny języków. Zespół zastosował swój algorytm do języka iberyjskiego z uwzględnieniem baskijskiego, a także mniej prawdopodobnych kandydatów z rodzin romańskich, germańskich, tureckich i uralskich. Chociaż język baskijski i łacina były bliższe iberyjskiemu niż innym językom, nadal były zbyt różne, aby można je było uznać za powiązane.

Poprzedni artykuł Ponad 1Gbs w pociągu

Następny artykuł Ubuntu 20.10 wydane