Google udostępnia kod parsera robots.txt, aby REP stało się standardem

Maciej Olanicki, 01.07.2019 r.

Google ogłosiło dziś, że kod oprogramowania przetwarzającego serwowane przez witryny pliki robots.txt będzie ogólnodostępny. Parser jest już dostępny na GitHubie, zaś jego otwarcie stanowi element większej strategii – Google chce, by po latach protokół REP stał się obowiązującym standardem.

Robot Exclusion Protocol to umowny zbiór zasad, w jaki strony komunikują botom przetwarzającym strony na potrzeby wyszukiwarek internetowych, które elementy powinny zostać zignorowane. Mimo że REP wykorzystywany jest od lat 90., to wciąż nie sposób stwierdzić, by stał się obowiązującym standardem. Google zaś, swoim zwyczajem, chce to zmienić.

W tym celu korporacja zdecydowała się na udostępnienie kodu oprogramowania przetwarzającego robots.txt. Ma to zachęcić deweloperów do budowania własnych parserów, jednak w oparciu o dokonania Google, a w rezultacie w zgodności z Robot Exclusion Protocol. Udostępniony został także kod bibliotek, które umożliwiają przeprowadzanie testów twórcom witryn:

Jesteśmy tu, by pomóc: udostępniamy kod bibliotek C++ wykorzystywane przez nasze systemy produkcyjne dla parsowania i ustalania reguł w plikach robots.txt. Biblioteka jest z nami od około 20 lat i zawiera fragmenty kodu napisanie w latach 90. Od tego czasu ewoluowała; nauczyliśmy się dużo o tym, jak webmasterzy piszą robots.txt i różnych przypadkach, z którymi musieliśmy się zmierzyć...

Jak widać, korporacja chce uczynić obowiązującym wszystkich standardem protokół wykorzystywany przez własną wyszukiwarkę. W ujednolicaniu i porządkowaniu rzeczy nie ma nic złego, ale dlaczego musi to być zawsze ujednolicanie na modłę Google? Z kodem udostępnionych przez Google bibliotek można zapoznać się na GitHubie.

Zobacz też: Zmiany w adresach AMP już są – kto tak naprawdę na nich zyska, a kto straci?