Blog IT, Blog Marketing

ClearOCR: Jak od czytania tysięcy CV doszliśmy do walki o prawdę w dokumentach

ClearOCR: Jak od czytania tysięcy CV doszliśmy do walki o prawdę w dokumentach News!

TeamQuest , 29.01.2026 r.

Jako firma rekrutacyjna codziennie przetwarzamy setki życiorysów. CV to specyficzny rodzaj dokumentu: jako graficzne labirynty, niestandardowe fonty, tabele, kolumny i... kreatywność kandydatów, która dla standardowych systemów OCR jest koszmarem. Kiedy błąd w odczycie numeru telefonu czy adresu e-mail decyduje o tym, czy rekrutacja zakończy się sukcesem, margines błędu przestaje istnieć.

Potem przyszedł kolejny test: skan dokumentu urzędowego z BIP w formacie PDF. Pieczęcie, tabele, prawniczy żargon i polskie znaki w fatalnej jakości. Wtedy zrozumieliśmy, że problem z CV i dokumentami urzędowymi jest dokładnie ten sam - jak przetworzyć skutecznie PDF na tekst.

Czy OCR ma dawać tekst do czytania, czy tekst jako dowód?

CV to nie artykuł, dokument to nie narracja

Większość narzędzi OCR (szczególnie tych opartych na dużych modelach językowych, LLM) projektuje się tak, by wynik ekstrakcji JPG do tekstu był „ładny”. Jeśli model widzi niewyraźne słowo, „zgaduje” je z kontekstu, by tekst był płynny i poprawiony.

To świetne przy digitalizacji notatek, ale zabójcze w rekrutacji i administracji.

  • W CV standardowe VLM (Vision Language Models - VLMs) może „poprawić” nazwę niszowej technologii na popularną, bo tak mu podpowiada statystyka.
  • W dokumencie urzędowym modele VLM mogą „naprawić” kwotę, gubiąc przecinek, który zmienia tysiące w miliony.

W ClearOCR odrzuciliśmy tę filozofię. Nasze narzędzie nie ma „opowiadać” treści dokumentu. Ma ją wiernie przepisać, zachowując całą treść, znaki szczególne i błędy [/b].

ClearOCR - Chat

Dlaczego polski dokument (i polskie CV) to „wyższa szkoła jazdy”?

Globalni giganci OCR uczą się na „ładnym”, angielskim internecie. Tymczasem polska rzeczywistość dokumentowa to:

  • Specyficzna diakrytyka: Polskie znaki („ą”, „ł”, „ś”) często znikają w słabej jakości skanach.
  • Kultura papieru: Pieczątki nachodzące na tekst, podpisy w poprzek tabel, specyficzne formularze urzędowe.
  • Chaos w CV: Wielokolumnowe układy, graficzne ikony zamiast słów „telefon” czy „mail”.

ClearOCR od początku trenowaliśmy na „polskim miksie dokumentów”. Na skanach urzędowych z lat 90., na materiałach z BIP (Biuletyn Informacji Publicznej), na chaotycznych formularzach i tabelach o niestandardowym składzie, na fakturach, paragonach i zdjęciach z telefonu. Nie po to, żeby system „rozumiał” treść pism, ale żeby rozumiał, jak wygląda autentyczny dokument w naszych realiach.

Eksperyment: Wybór między estetyką a prawdą

Zrobiliśmy prosty test. Ten sam, trudny skan urzędowy przepuściliśmy przez trzy narzędzia:

  • Jeden z najpopularniejszych LLM: Wynik wyglądał idealnie. Dopiero wczytanie się ujawniło, że model „zmyślił” brakujące fragmenty pod zagięciem kartki, zmienił polskie "r" na rosyjskie "г", scalił "załącznik 2 i 3" w "załacznik 213".
  • Duży model komercyjny: Odczytał tekst, ale potraktował pieczątki i podpisy jako „szum”, całkowicie je pominął, nie zainteresował się też stopką dokumentu.
  • ClearOCR: Oddał wynik surowy. Niezbyt piękny wizualnie, ale w zgodny z obrazem bez pomijania treści.

Wniosek? Jeśli tekst ma trafić do systemu IT, bazy danych czy archiwum, potrzebujesz prawdy dokumentu, a nie jego „wygodnej ładnej wersji tekstu”.

ClearOCR - Zamówienie

Od wewnętrznego narzędzia do API dla biznesu

ClearOCR wyrósł z potrzeb TeamQuest, ale szybko okazało się, że problem „wiarygodności danych” mają wszyscy: od kancelarii prawnych po działy księgowe.

Dlatego udostępniliśmy ClearOCR przez Web DemoAPI. Nie jako zamkniętą bibliotekę, ale jako żyjące narzędzie. Dlaczego? Bo dokumenty się zmieniają. Cały czas uczymy model nowych typów dokumentów, starodruków i danych gdzie nasze rozwiązanie nie osiągnęło jeszcze bardzo wysokiej jakości, by jakość odczytu rosła z każdym nowym wydaniem.

Po co to wszystko?

Bo dokument – czy to CV kandydata, czy umowa z kontrahentem – to ślad faktu. W TeamQuest wiemy, że w rekrutacji (i nie tylko) jeden znak naprawdę ma znaczenie.

Dziś wybór OCR to decyzja strategiczna:

  • Chcesz tekst, który miło się czyta? Wybierz dowolne popularne narzędzie.
  • Chcesz tekst, któremu możesz zaufać w systemie IT? Sprawdź ClearOCR.

Chcesz zobaczyć, jak ClearOCR poradzi sobie z Twoimi wyzwaniami? Przetestuj swoje najbardziej wymagające dokumenty w naszym demo. Nie obiecujemy, że wynik będzie „ładny”. Obiecujemy, że będzie prawdziwy.

» Przetestuj ClearOCR

» Wyślij zapytanie o API

Najnowsze oferty pracy:

Polecane wpisy na blogu IT:

Szukasz pracownika IT?

Dostarczymy Ci najlepszych specjalistów z branży IT. Wyślij zapytanie

Wyrażam zgodę TeamQuest Sp. z o.o. na przetwarzanie moich danych osobowych w celu marketingu produktów i usług własnych TeamQuest, w tym na kontaktowanie się ze mną w formie połączenia telefonicznego lub środkami elektronicznymi.
Administratorem podanych przez Ciebie danych osobowych jest TeamQuest Sp. z o.o., z siedzibą w Warszawie (00-810), ul. Srebrna 16 lok. 308D, zwana dalej „Administratorem".
Jeśli masz jakiekolwiek pytania odnośnie przetwarzania przez nas Twoich danych, skontaktuj się z naszym Inspektorem Ochrony Danych (IOD). Do Twojej dyspozycji jest pod adresem e-mail: office@teamquest.pl.
W jakim celu i na jakiej podstawie będziemy wykorzystywać Twoje dane? Dowiedz się więcej