Jako firma rekrutacyjna codziennie przetwarzamy setki życiorysów. CV to specyficzny rodzaj dokumentu: jako graficzne labirynty, niestandardowe fonty, tabele, kolumny i... kreatywność kandydatów, która dla standardowych systemów OCR jest koszmarem. Kiedy błąd w odczycie numeru telefonu czy adresu e-mail decyduje o tym, czy rekrutacja zakończy się sukcesem, margines błędu przestaje istnieć.
Potem przyszedł kolejny test: skan dokumentu urzędowego z BIP w formacie PDF. Pieczęcie, tabele, prawniczy żargon i polskie znaki w fatalnej jakości. Wtedy zrozumieliśmy, że problem z CV i dokumentami urzędowymi jest dokładnie ten sam - jak przetworzyć skutecznie PDF na tekst.
Czy OCR ma dawać tekst do czytania, czy tekst jako dowód?
CV to nie artykuł, dokument to nie narracja
Większość narzędzi OCR (szczególnie tych opartych na dużych modelach językowych, LLM) projektuje się tak, by wynik ekstrakcji JPG do tekstu był „ładny”. Jeśli model widzi niewyraźne słowo, „zgaduje” je z kontekstu, by tekst był płynny i poprawiony.
To świetne przy digitalizacji notatek, ale zabójcze w rekrutacji i administracji.
- W CV standardowe VLM (Vision Language Models - VLMs) może „poprawić” nazwę niszowej technologii na popularną, bo tak mu podpowiada statystyka.
- W dokumencie urzędowym modele VLM mogą „naprawić” kwotę, gubiąc przecinek, który zmienia tysiące w miliony.
W ClearOCR odrzuciliśmy tę filozofię. Nasze narzędzie nie ma „opowiadać” treści dokumentu. Ma ją wiernie przepisać, zachowując całą treść, znaki szczególne i błędy [/b].
Dlaczego polski dokument (i polskie CV) to „wyższa szkoła jazdy”?
Globalni giganci OCR uczą się na „ładnym”, angielskim internecie. Tymczasem polska rzeczywistość dokumentowa to:
- Specyficzna diakrytyka: Polskie znaki („ą”, „ł”, „ś”) często znikają w słabej jakości skanach.
- Kultura papieru: Pieczątki nachodzące na tekst, podpisy w poprzek tabel, specyficzne formularze urzędowe.
- Chaos w CV: Wielokolumnowe układy, graficzne ikony zamiast słów „telefon” czy „mail”.
ClearOCR od początku trenowaliśmy na „polskim miksie dokumentów”. Na skanach urzędowych z lat 90., na materiałach z BIP (Biuletyn Informacji Publicznej), na chaotycznych formularzach i tabelach o niestandardowym składzie, na fakturach, paragonach i zdjęciach z telefonu. Nie po to, żeby system „rozumiał” treść pism, ale żeby rozumiał, jak wygląda autentyczny dokument w naszych realiach.
Eksperyment: Wybór między estetyką a prawdą
Zrobiliśmy prosty test. Ten sam, trudny skan urzędowy przepuściliśmy przez trzy narzędzia:
- Jeden z najpopularniejszych LLM: Wynik wyglądał idealnie. Dopiero wczytanie się ujawniło, że model „zmyślił” brakujące fragmenty pod zagięciem kartki, zmienił polskie "r" na rosyjskie "г", scalił "załącznik 2 i 3" w "załacznik 213".
- Duży model komercyjny: Odczytał tekst, ale potraktował pieczątki i podpisy jako „szum”, całkowicie je pominął, nie zainteresował się też stopką dokumentu.
- ClearOCR: Oddał wynik surowy. Niezbyt piękny wizualnie, ale w zgodny z obrazem bez pomijania treści.
Wniosek? Jeśli tekst ma trafić do systemu IT, bazy danych czy archiwum, potrzebujesz prawdy dokumentu, a nie jego „wygodnej ładnej wersji tekstu”.
Od wewnętrznego narzędzia do API dla biznesu
ClearOCR wyrósł z potrzeb TeamQuest, ale szybko okazało się, że problem „wiarygodności danych” mają wszyscy: od kancelarii prawnych po działy księgowe.
Dlatego udostępniliśmy ClearOCR przez Web Demo i API. Nie jako zamkniętą bibliotekę, ale jako żyjące narzędzie. Dlaczego? Bo dokumenty się zmieniają. Cały czas uczymy model nowych typów dokumentów, starodruków i danych gdzie nasze rozwiązanie nie osiągnęło jeszcze bardzo wysokiej jakości, by jakość odczytu rosła z każdym nowym wydaniem.
Po co to wszystko?
Bo dokument – czy to CV kandydata, czy umowa z kontrahentem – to ślad faktu. W TeamQuest wiemy, że w rekrutacji (i nie tylko) jeden znak naprawdę ma znaczenie.
Dziś wybór OCR to decyzja strategiczna:
- Chcesz tekst, który miło się czyta? Wybierz dowolne popularne narzędzie.
- Chcesz tekst, któremu możesz zaufać w systemie IT? Sprawdź ClearOCR.
Chcesz zobaczyć, jak ClearOCR poradzi sobie z Twoimi wyzwaniami? Przetestuj swoje najbardziej wymagające dokumenty w naszym demo. Nie obiecujemy, że wynik będzie „ładny”. Obiecujemy, że będzie prawdziwy.





