Dawna polszczyzna i nowe technologie: testowanie metod przetwarzania języka naturalnego na materiale polskiego piśmiennictwa od średniowiecza po wiek XX

Journal Title: Biuletyn Polskiego Towarzystwa Językoznawczego - Year 2015, Vol 0, Issue 71

Abstract

Celem niniejszego artykułu jest sprawdzenie, w jakim stopniu standardowe narzędzia do przetwarzania języka naturalnego dają się zastosować do anotowania korpusów historycz- nych. Kilka wybranych tekstów z XV–XX wieku zostało poddanych automatycznej anotacji, a następnie sprawdzonych ręcznie; celem było oszacowanie liczby prawidłowo rozpoznanych form gramatycznych. Do analiz wybrano program TaKIPI, tager probabilistyczny wyuczony na materiale współczesnej polszczyzny. Otrzymane wyniki sugerują, że co prawda istnieje sil- na zależność między skutecznością tagera a datowaniem badanego tekstu, ale nawet najgorsze wyniki, uzyskane dla kazań średniowiecznych, można ostrożnie uznać za satysfakcjonujące. The study aims to examine the extent to which standard NLP (natural language process- ing) tools can be used to annotate corpora of early texts. Selected texts, written between the 15th and 20th centuries, were fi rst annotated automatically and then examined manually in order to estimate the number of correctly recognized grammatical forms. The software cho- sen to carry out the automatic annotation was TaKIPI, which is a probabilistic tagger trained on contemporary Polish texts. The results suggest that there is a strong correlation between chronology and the number of tagging errors, but even the worst scores obtained for medieval sermons were fairly satisfactory.

Authors and Affiliations

Magdalena Klapper, Maciej Eder, Dorota Kołodziej

Keywords

Related Articles

Język jako wielka narracja: teoria narracyjności w semantyce.

Przywołując interdyscyplinarne badania – rozwijane w naukach kognitywnych, w obrę- bie psychologii, fi lozofi i czy socjologii – autorka dokonuje ekstrapolacji teorii narracyjności na obszar badań semantycznych. W tym c...

Podstawowe kategorie teorii i opisu języka

Artykuł nawiązuje do pracy jego autora pt. The Dynamics of Language (1976) i omawia trzy podstawowe i niezbędne kategorie teorii i opisu języka, a mianowicie formę, sygnifikację i lokację, ze szczególnym uwzględnieniem t...

Norma językowa w polszczyźnie historycznej

W artykule przedstawiono dwa podejścia do normy językowej – w odniesieniu do polszczyzny nam współczesnej oraz do języka doby renesansu. Wiedzę poprawnościową dotyczącą języka, którym się na co dzień posługujemy, czerpie...

Stałość i zmienność w języku na przykładzie gramatycznej kategorii określoności.

Po krótkim wstępie przedstawiającym cel artykułu następują części omawiające poszcze- gólne zagadnienia składowe, a mianowicie: (1) gramatyczne kategorie determinacji i określo- ności, część przedstawiająca defi nicje ty...

Sonantic coefficient as a prominence factor in a phonic chord: a retrospective.

This article considers the role of Saussure’s concept of sonantic coeffi cient (1878) in the diachronic development of PIE liquid and nasal sonants. Saussure viewed the concept as the elusive ability of some sounds to...

Download PDF file
  • EP ID EP165907
  • DOI -
  • Views 158
  • Downloads 0

How To Cite

Magdalena Klapper, Maciej Eder, Dorota Kołodziej (2015). Dawna polszczyzna i nowe technologie: testowanie metod przetwarzania języka naturalnego na materiale polskiego piśmiennictwa od średniowiecza po wiek XX. Biuletyn Polskiego Towarzystwa Językoznawczego, 0(71), -. https://europub.co.uk./articles/-A-165907