OCR/HTR Tester Łaciny

Opis działania i instrukcja obsługi narzędzia do weryfikacji tekstów

Aplikacja jest prostym narzędziem webowym zaprojektowanym do weryfikacji i poprawy jakości tekstów łacińskich przetworzonych przez systemy automatycznego rozpoznawania pisma (OCR) lub pisma ręcznego (HTR). Narzędzie może pomóc badaczom i edytorom tekstów źródłowych zidentyfikować typowe błędy digitalizacji, takie jak błędne rozpoznanie liter, problemy z segmentacją wyrazów czy błędy w rozwinięciach skrótów.

Kluczowe funkcje i metody analizy

Aplikacja oferuje dwa niezależne sposoby analizy, które można przełączać w zależności od potrzeb:

Silnik Lokalny (Hunspell + CLTK)

Działa w oparciu o reguły słownikowe i algorytmy przetwarzania języka naturalnego (NLP):

  • system automatycznie rozpoznaje warianty zapisu typowe dla nowożytnej łaciny, takie jak zamienność liter (u/v, i/j, oraz użycie długiego s ſ),
  • posiada wbudowaną listę najczęstszych pomyłek wizualnych OCR (np. m zamiast in),
  • wykorzystuje Classical Language Toolkit do sprowadzania słów do ich form podstawowych, co pozwala rozpoznać poprawność gramatyczną słów, których nie ma wprost w słowniku.

Silnik LLM

Wykorzystuje duży model językowy GPT do analizy kontekstowej:

  • analizuje składnię i sens całego zdania,
  • sugeruje poprawki w miejscach, gdzie słowo jest poprawne słownikowo, ale może nie pasować do kontekstu historycznego.

Instrukcja Obsługi Krok po Kroku

Logowanie

Dostęp do aplikacji jest zabezpieczony, należy się zalogować.

Wprowadzenie tekstu

Wklej tekst uzyskany z OCR/HTR do głównego pola tekstowego. Obowiązuje limit 5000 znaków. Licznik pod polem tekstowym informuje o aktualnej długości tekstu.

Wybór trybu i analiza

Wybierz tryb Lokalna (weryfikacja słownikowa) lub LLM (analiza kontekstowa). Kliknij przycisk „Analizuj tekst” i zaczekaj na zakończenie przetwarzania (analiza może potrwać od kilkunastu do kilkudziesięciu sekund).

Przegląd wyników

System wyświetli dwa panele: wizualną reprezentację tekstu z kolorowymi podświetleniami (określającymi rodzaj problemu) oraz tabelaryczną listę wskazań potencjalnych błędów z opisem.

Nawigacja i Narzędzia Pomocnicze

  • Interaktywność: Kliknięcie numeru błędu (#) w tabeli wskazań przenosi widok do odpowiadającego mu miejsca w tekście.
  • Tooltips: Najechanie kursorem na podświetlone słowo wyświetli skrócony powód oznaczenia oraz sugestię.
  • Czyszczenie: Przycisk „Wyczyść” resetuje całą aplikację i usuwa wyniki.

Ograniczenia i Uwagi Techniczne

  • Szybkość: Silnik lokalny potrzebuje chwili na załadowanie słowników przy pierwszym uruchomieniu po przerwie, analiza przez model językowy opiera sie na API OpenAI i zależy od jego dostępności.
  • Błędy segmentacji: Narzędzie stara się wykryć zlane wyrazy (np. „etnon”), sugerując ich rozdzielenie, jeśli części składowe tworzą poprawne formy łacińskie.
  • Długie słowa: W trybie lokalnym, aby uniknąć zawieszenia systemu, sugestie Hunspell nie są generowane dla słów dłuższych niż 10 znaków.