LuxBank: The First Universal Dependency Treebank for Luxembourgish

要約

ユニバーサル依存関係 (UD) プロジェクトは、言語の対象範囲を 161 言語にわたって大幅に拡大しましたが、約 40 万人が話す西ゲルマン語であるルクセンブルク語はこれまで存在しませんでした。
この論文では、ルクセンブルク語用の初の UD Treebank である LuxBank を紹介し、この「研究が進んでいない」言語の構文注釈と分析におけるギャップに対処します。
私たちはルクセンブルク語の注釈に関する正式なガイドラインを確立し、その構文の最初の大規模な定量的分析の基礎を提供します。
LuxBank は、言語学者や言語学習者のためのリソースとしてだけでなく、スペル チェッカーや文法チェッカーの開発、既存のテキスト アーカイブの整理、さらには大規模な言語モデルのトレーニングのためのツールとしても機能します。
ルクセンブルク語を UD フレームワークに組み込むことで、西ゲルマン言語内の構文のバリエーションの理解を強化し、より小規模な半標準化された言語を文書化するためのモデルを提供することを目指しています。
この取り組みは、ルクセンブルク語をより広範な言語学および NLP コミュニティにおける貴重なリソースとして位置づけ、研究とリソースが限られている言語の研究に貢献します。

要約(オリジナル)

The Universal Dependencies (UD) project has significantly expanded linguistic coverage across 161 languages, yet Luxembourgish, a West Germanic language spoken by approximately 400,000 people, has remained absent until now. In this paper, we introduce LuxBank, the first UD Treebank for Luxembourgish, addressing the gap in syntactic annotation and analysis for this `low-research’ language. We establish formal guidelines for Luxembourgish language annotation, providing the foundation for the first large-scale quantitative analysis of its syntax. LuxBank serves not only as a resource for linguists and language learners but also as a tool for developing spell checkers and grammar checkers, organising existing text archives and even training large language models. By incorporating Luxembourgish into the UD framework, we aim to enhance the understanding of syntactic variation within West Germanic languages and offer a model for documenting smaller, semi-standardised languages. This work positions Luxembourgish as a valuable resource in the broader linguistic and NLP communities, contributing to the study of languages with limited research and resources.

arxiv情報

著者 Alistair Plum,Caroline Döhmer,Emilia Milano,Anne-Marie Lutgen,Christoph Purschke
発行日 2024-11-07 15:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク