要約
本格的な標準的な種類が存在しないため、ルクセンブルク語のテキストでは正書法のバリエーションが非常に一般的です。
さらに、ルクセンブルク語用の NLP ツールの開発は、注釈付きの並列データが不足していることを考えると困難な作業であり、進行中の標準化によってさらに悪化しています。
この論文では、ByT5 および mT5 アーキテクチャを使用し、単語レベルの現実の変動データから取得したトレーニング データを使用した最初の系列間正規化モデルを提案します。
私たちは、言語に基づいたきめ細かい評価を実行して、バイトベース、ワードベース、パイプラインベースのモデルのテキスト正規化における長所と短所をテストします。
現実の変動データを使用したシーケンス モデルが、ルクセンブルク語でのオーダーメイドの正規化に効果的なアプローチであることを示します。
要約(オリジナル)
Orthographic variation is very common in Luxembourgish texts due to the absence of a fully-fledged standard variety. Additionally, developing NLP tools for Luxembourgish is a difficult task given the lack of annotated and parallel data, which is exacerbated by ongoing standardization. In this paper, we propose the first sequence-to-sequence normalization models using the ByT5 and mT5 architectures with training data obtained from word-level real-life variation data. We perform a fine-grained, linguistically-motivated evaluation to test byte-based, word-based and pipeline-based models for their strengths and weaknesses in text normalization. We show that our sequence model using real-life variation data is an effective approach for tailor-made normalization in Luxembourgish.
arxiv情報
著者 | Anne-Marie Lutgen,Alistair Plum,Christoph Purschke,Barbara Plank |
発行日 | 2024-12-12 15:50:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google