TEXT2NER
Opis działania i instrukcja obsługi narzędzia do konwersji dokumentów na format TEI-XML z identyfikacją encji nazwanych
Aplikacja TEXT2NER przeznaczona jest do wstępnej konwersji dokumentów historycznych do formatu TEI-XML. Dokument w postaci zwykłego tekstu jest przekształcany na struktury xml (nagłówek head, oraz body z elementami div, p). Następnie w tekście wyszukiwane są występujące w nim nazwy własne: osoby oraz miejsca (miejscowości, kraje itp.).
Nazwy własne w postaci dokładnie takiej jak zapisano w transkrypcji dokumentu mogą być trudne do identyfikacji, dlatego przed procesem linkowania nazw z zewnętrznymi bazami referencyjnymi aplikacja wykonuje "normalizację/wzbogacenie" nazwy, korzystając z kontekstu jej wystąpienia oraz dużego modelu językowego (Gemini 3.1 Flash Lite Preview). Wystąpienie w dokumencie łacińskim z przełomu XV/XVI wieku nazwy "Fridericus" jest dzięki temu rozpoznawane jako "Fryderyk Jagiellończyk". Nazwa w tej postaci może już być łatwiej wyszukana w bazach referencyjnych. Może też się zdarzyć, że "normalizacja/wzbogacenie" nazwy jest nieskuteczne, wówczas wyszukiwana jest oryginalna nazwa z dokumentu.
Aplikacja przeszukuje bazy: wikidata, WikiHum i w przypadku miejsc geonames, z każdej pobiera listę najbardziej prawdopodobnych kandytatów do identyfikacji (o ile baza zwróci taką listę) wraz z dodatkowymi informacjami np. w przypadku wikidata oprócz nazwy i identyfikatora Q zwracany jest opis elementu wikidata oraz aliasy nazw. Na podstawie list kandydatów z baz referencyjnych, nazwy występującej w tekście dokumentu i konktekstu jej wystąpienia w tekście przeprowadzana jest analiza i wybór najwłaściwszego kandydata - z użyciem dużego modelu językowego.
Efektem wyszukiwania jest zapis nazwy własnej w formie tagu np. persName, z atrybutami key, ref np.:
<persName key="Fryderyk Jagiellończyk"
ref="https://wikihum.lab.dariah.pl/entity/Q152903">Fridericus</persName>
Instrukcja Obsługi
Logowanie
Dostęp do aplikacji jest zabezpieczony, należy się zalogować.
Wprowadzenie tekstu
Wklej tekst dokumentu historycznego do głównego pola (limit 5000 znaków). Możesz też użyć listy przykładów, widocznej pod polem.
Analiza
Kliknij "Analizuj tekst". System automatycznie przekonwertuje tekst na format TEI-XML i wyszuka encje w bazach Wikidata, WikiHum i GeoNames (analiza może potrwać od kilkunastu do kilkudziesięciu sekund).
Wyniki
System wyświetli dwa widoki:
- Kod XML: podgląd struktury TEI-XML, gotowy do zapisu.
- Podgląd tekstu: Interaktywna lektura z dymkami (tooltips). Najedź myszą na osobę lub miejsce, by zobaczyć dane z baz zewnętrznych.
Eksport danych
Wynik możesz skopiować do schowka lub pobrać jako plik .xml.
