Počet záznamů: 1  

Na cestě k lemmatizaci staročeských textů: data, software, aplikace

  1. 1.
    0498891 - ÚJČ 2019 RIV CZ cze J - Článek v odborném periodiku
    Synková, P. - Lehečka, Boris - Svoboda, Ondřej
    Na cestě k lemmatizaci staročeských textů: data, software, aplikace.
    [Towards the lemmatization of Old Czech texts: data, software, applications.]
    Studie z aplikované lingvistiky. Roč. 9, zvláštní vydání (2018), s. 66-84. ISSN 1804-3240. E-ISSN 2336-6702
    Grant CEP: GA MŠMT(CZ) LM2015081
    Institucionální podpora: RVO:68378092
    Klíčová slova: common nouns * lemmatization * NLP software and applications * Old Czech * tagging * XML
    Obor OECD: Linguistics
    https://dspace.cuni.cz/bitstream/handle/20.500.11956/103953/Pavlina_Synkova_%e2%80%94_Boris_Lehecka_%e2%80%94_Ondrej_Svoboda_66-84.pdf?sequence=1&isAllowed=y

    Cílem článku je představit popis staročeské apelativní deklinace (vydaný knižně v roce 2017), který se využívá mj. při tagování a lemmatizaci transkribovaných digitálních edic staročeských textů. Původní popis se skládá ze čtyř částí: a) kompletní sady deklinačních vzorů, b) analýzy alternací v tvarotvorném základu slovních tvarů, c) přehledu formálních změn souvisejících především s historickým vývojem jazyka, d) rozsáhlého seznamu lemmat extrahovaných z moderních slovníků staré češtiny. V článku jsou dále přiblíženy softwarové nástroje využité při vytváření popisu: existující (OpenRefine) i nově vytvořené (Analýza tokenů, automatické přiřazení vzoru k lemmatu). Závěrem jsou popsány aplikace, které na jeho základě vznikly: přehled staročeských vzorů propojených se slovníky Vokabuláře webového a staročeskou textovou bankou a dále generátor tvarů, který je základem pro tagování a lemmatizaci.

    The paper introduces a description of declension of Old Czech common nouns (published in print in 2017) employed, among other uses, for tagging and lemmatization of transcribed digital editions of Old Czech text. The original description consists of four parts: a comprehensive set of declension patterns, an analysis of alternations in the morphological basis of word forms, an outline of formal changes mostly related to historical development of the language, and an extensive list of lemmas extracted from modern dictionaries of Old Czech. Further, the paper gives an overview of software tools used to prepare the description: both pre-existing (OpenRefine) and newly created („Tokens analyzer“, automatic assignment of a declension pattern to a lemma). Finally, the paper features applications based on the description: a web presentation of Old Czech common noun declension patterns linked to dictionaries of Vokabulář webový and to the „Old Czech Text Bank“, and also a word form generator used for tagging and lemmatization.
    Trvalý link: http://hdl.handle.net/11104/0291232

     
     
Počet záznamů: 1  

  Tyto stránky využívají soubory cookies, které usnadňují jejich prohlížení. Další informace o tom jak používáme cookies.