要約
キルギス語はリソースが少ない言語なので、高品質の構文コーパスを作成するには多大な労力が必要です。
この研究は、キルギス語の構文コーパスの開発プロセスを簡素化するアプローチを提案します。
ツリーバンク翻訳法に基づいて構文注釈をトルコ語からキルギス語に転送するツールを紹介します。
提案されたツールの有効性は、TueCL ツリーバンクを使用して評価されました。
結果は、このアプローチが、キルギスの KTMU ツリーバンクでトレーニングされた単一言語モデルと比較して、より高い構文注釈精度を達成することを示しています。
さらに、この研究では、結果として得られる構文ツリーに対する手動アノテーションの複雑さを評価する方法を導入し、アノテーション プロセスのさらなる最適化に貢献します。
要約(オリジナル)
The Kyrgyz language, as a low-resource language, requires significant effort to create high-quality syntactic corpora. This study proposes an approach to simplify the development process of a syntactic corpus for Kyrgyz. We present a tool for transferring syntactic annotations from Turkish to Kyrgyz based on a treebank translation method. The effectiveness of the proposed tool was evaluated using the TueCL treebank. The results demonstrate that this approach achieves higher syntactic annotation accuracy compared to a monolingual model trained on the Kyrgyz KTMU treebank. Additionally, the study introduces a method for assessing the complexity of manual annotation for the resulting syntactic trees, contributing to further optimization of the annotation process.
arxiv情報
著者 | Anton Alekseev,Alina Tillabaeva,Gulnara Dzh. Kabaeva,Sergey I. Nikolenko |
発行日 | 2024-12-17 18:12:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google