ClearOCR: Jak od czytania tysięcy CV doszliśmy do walki o prawdę w dokumentach News!

TeamQuest, 29.01.2026 r.

Jako firma rekrutacyjna codziennie przetwarzamy setki życiorysów. CV to specyficzny rodzaj dokumentu: jako graficzne labirynty, niestandardowe fonty, tabele, kolumny i... kreatywność kandydatów, która dla standardowych systemów OCR jest koszmarem. Kiedy błąd w odczycie numeru telefonu czy adresu e-mail decyduje o tym, czy rekrutacja zakończy się sukcesem, margines błędu przestaje istnieć.

Potem przyszedł kolejny test: skan dokumentu urzędowego z BIP w formacie PDF. Pieczęcie, tabele, prawniczy żargon i polskie znaki w fatalnej jakości. Wtedy zrozumieliśmy, że problem z CV i dokumentami urzędowymi jest dokładnie ten sam - jak przetworzyć skutecznie PDF na tekst.

Czy OCR ma dawać tekst do czytania, czy tekst jako dowód?
CV to nie artykuł, dokument to nie narracja

Większość narzędzi OCR (szczególnie tych opartych na dużych modelach językowych, LLM) projektuje się tak, by wynik ekstrakcji JPG do tekstu był „ładny”. Jeśli model widzi niewyraźne słowo, „zgaduje” je z kontekstu, by tekst był płynny i poprawiony.

To świetne przy digitalizacji notatek, ale zabójcze w rekrutacji i administracji.

W CV standardowe VLM (Vision Language Models - VLMs) może „poprawić” nazwę niszowej technologii na popularną, bo tak mu podpowiada statystyka.
W dokumencie urzędowym modele VLM mogą „naprawić” kwotę, gubiąc przecinek, który zmienia tysiące w miliony.

W ClearOCR odrzuciliśmy tę filozofię. Nasze narzędzie nie ma „opowiadać” treści dokumentu. Ma ją wiernie przepisać, zachowując całą treść, znaki szczególne i błędy [/b].

Dlaczego polski dokument (i polskie CV) to „wyższa szkoła jazdy”?

Globalni giganci OCR uczą się na „ładnym”, angielskim internecie. Tymczasem polska rzeczywistość dokumentowa to:

Specyficzna diakrytyka: Polskie znaki („ą”, „ł”, „ś”) często znikają w słabej jakości skanach.
Kultura papieru: Pieczątki nachodzące na tekst, podpisy w poprzek tabel, specyficzne formularze urzędowe.
Chaos w CV: Wielokolumnowe układy, graficzne ikony zamiast słów „telefon” czy „mail”.

ClearOCR od początku trenowaliśmy na „polskim miksie dokumentów”. Na skanach urzędowych z lat 90., na materiałach z BIP (Biuletyn Informacji Publicznej), na chaotycznych formularzach i tabelach o niestandardowym składzie, na fakturach, paragonach i zdjęciach z telefonu. Nie po to, żeby system „rozumiał” treść pism, ale żeby rozumiał, jak wygląda autentyczny dokument w naszych realiach.

Eksperyment: Wybór między estetyką a prawdą

Zrobiliśmy prosty test. Ten sam, trudny skan urzędowy przepuściliśmy przez trzy narzędzia:

Jeden z najpopularniejszych LLM: Wynik wyglądał idealnie. Dopiero wczytanie się ujawniło, że model „zmyślił” brakujące fragmenty pod zagięciem kartki, zmienił polskie "r" na rosyjskie "г", scalił "załącznik 2 i 3" w "załacznik 213".
Duży model komercyjny: Odczytał tekst, ale potraktował pieczątki i podpisy jako „szum”, całkowicie je pominął, nie zainteresował się też stopką dokumentu.
ClearOCR: Oddał wynik surowy. Niezbyt piękny wizualnie, ale w zgodny z obrazem bez pomijania treści.

Wniosek? Jeśli tekst ma trafić do systemu IT, bazy danych czy archiwum, potrzebujesz prawdy dokumentu, a nie jego „wygodnej ładnej wersji tekstu”.

Od wewnętrznego narzędzia do API dla biznesu
ClearOCR wyrósł z potrzeb TeamQuest, ale szybko okazało się, że problem „wiarygodności danych” mają wszyscy: od kancelarii prawnych po działy księgowe.

Dlatego udostępniliśmy ClearOCR przez Web Demo i API. Nie jako zamkniętą bibliotekę, ale jako żyjące narzędzie. Dlaczego? Bo dokumenty się zmieniają. Cały czas uczymy model nowych typów dokumentów, starodruków i danych gdzie nasze rozwiązanie nie osiągnęło jeszcze bardzo wysokiej jakości, by jakość odczytu rosła z każdym nowym wydaniem.

Po co to wszystko?

Bo dokument – czy to CV kandydata, czy umowa z kontrahentem – to ślad faktu. W TeamQuest wiemy, że w rekrutacji (i nie tylko) jeden znak naprawdę ma znaczenie.

Dziś wybór OCR to decyzja strategiczna:

Chcesz tekst, który miło się czyta? Wybierz dowolne popularne narzędzie.
Chcesz tekst, któremu możesz zaufać w systemie IT? Sprawdź ClearOCR.

Chcesz zobaczyć, jak ClearOCR poradzi sobie z Twoimi wyzwaniami? Przetestuj swoje najbardziej wymagające dokumenty w naszym demo. Nie obiecujemy, że wynik będzie „ładny”. Obiecujemy, że będzie prawdziwy.

» Przetestuj ClearOCR

» Wyślij zapytanie o API

Network Engineer 15000 - 20000 PLN Formy umowy: B2B / Kontrakt

Łódź

Aplikuj

Sales Assistant 4700 - 6000 PLN Formy umowy: Umowa zlecenie B2B / Kontrakt

Warszawa

Aplikuj

Account Manager - Usługi rekrutacyjne 6000 - 9000 PLN Formy umowy: Umowa zlecenie B2B / Kontrakt

Warszawa

Aplikuj

Tagi: #clearocr #ocr cv #inteligentny ocr

Poprzedni artykuł Otwarte Oprogramowanie AI: Klucz do Przewagi Europy w Globalnym Wyścigu Technologicznym

Blog IT, Blog Marketing

ClearOCR: Jak od czytania tysięcy CV doszliśmy do walki o prawdę w dokumentach News!

Czy OCR ma dawać tekst do czytania, czy tekst jako dowód?
CV to nie artykuł, dokument to nie narracja

Dlaczego polski dokument (i polskie CV) to „wyższa szkoła jazdy”?

Eksperyment: Wybór między estetyką a prawdą

Od wewnętrznego narzędzia do API dla biznesu
ClearOCR wyrósł z potrzeb TeamQuest, ale szybko okazało się, że problem „wiarygodności danych” mają wszyscy: od kancelarii prawnych po działy księgowe.

Network Engineer 15000 - 20000 PLN Formy umowy: B2B / Kontrakt

Sales Assistant 4700 - 6000 PLN Formy umowy: Umowa zlecenie B2B / Kontrakt

Account Manager - Usługi rekrutacyjne 6000 - 9000 PLN Formy umowy: Umowa zlecenie B2B / Kontrakt

Najnowsze oferty pracy:

Programista Guidewire

Guidewire Developer

Data Scientist

Specjalista OpenText ECM

Administrator Systemów IT (Linux)

Polecane wpisy na blogu IT:

Otwarte Oprogramowanie AI: Klucz do Przewagi Europy w Globalnym Wyścigu Technologicznym

Jak efektywnie automatyzować aplikowanie na oferty pracy IT? Przegląd narzędzi dla szukających pracy w branży IT

Rust. Od systemów operacyjnych po sztuczną inteligencję

Zmiany kadrowe w zarządzie OpenAI. Współzałożyciel John Schulman odchodzi do Anthropic

Sekrety efektywnej nauki programowania

Menedżerowie w McDonalds mogą zacząć się bać

Szukasz pracownika IT?

Dostarczymy Ci najlepszych specjalistów z branży IT. Wyślij zapytanie

W czym programujesz?

Popularne stanowiska

Praca w miastach

ClearOCR: Jak od czytania tysięcy CV doszliśmy do walki o prawdę w dokumentach News!

Czy OCR ma dawać tekst do czytania, czy tekst jako dowód? CV to nie artykuł, dokument to nie narracja

Dlaczego polski dokument (i polskie CV) to „wyższa szkoła jazdy”?

Eksperyment: Wybór między estetyką a prawdą

Od wewnętrznego narzędzia do API dla biznesu ClearOCR wyrósł z potrzeb TeamQuest, ale szybko okazało się, że problem „wiarygodności danych” mają wszyscy: od kancelarii prawnych po działy księgowe.

Network Engineer 15000 - 20000 PLN Formy umowy: B2B / Kontrakt

Sales Assistant 4700 - 6000 PLN Formy umowy: Umowa zlecenie B2B / Kontrakt

Account Manager - Usługi rekrutacyjne 6000 - 9000 PLN Formy umowy: Umowa zlecenie B2B / Kontrakt

Najnowsze oferty pracy:

Programista Guidewire

Guidewire Developer

Data Scientist

Specjalista OpenText ECM

Administrator Systemów IT (Linux)

Polecane wpisy na blogu IT:

Otwarte Oprogramowanie AI: Klucz do Przewagi Europy w Globalnym Wyścigu Technologicznym

Jak efektywnie automatyzować aplikowanie na oferty pracy IT? Przegląd narzędzi dla szukających pracy w branży IT

Rust. Od systemów operacyjnych po sztuczną inteligencję

Zmiany kadrowe w zarządzie OpenAI. Współzałożyciel John Schulman odchodzi do Anthropic

Sekrety efektywnej nauki programowania

Menedżerowie w McDonalds mogą zacząć się bać

Szukasz pracownika IT?

Dostarczymy Ci najlepszych specjalistów z branży IT. Wyślij zapytanie

W czym programujesz?

Popularne stanowiska

Praca w miastach

Czy OCR ma dawać tekst do czytania, czy tekst jako dowód?
CV to nie artykuł, dokument to nie narracja

Od wewnętrznego narzędzia do API dla biznesu
ClearOCR wyrósł z potrzeb TeamQuest, ale szybko okazało się, że problem „wiarygodności danych” mają wszyscy: od kancelarii prawnych po działy księgowe.