Modeling Orthographic Variation in Occitan’s Dialects

要約

テキスト データを効果的に正規化することは、特に標準化された書記体系を持たない低リソース言語の場合、かなりの課題となります。
この研究では、いくつかのオック語方言のデータを使用して多言語モデルを微調整し、これらの方言のモデルの表現を評価する一連の実験を実施しました。
評価の目的で、4 つのオック語方言を網羅する並列辞書を編集しました。
モデルの埋め込みの本質的な評価により、方言間の表面の類似性が表現を強化することが明らかになりました。
このモデルが品詞タグ付けと普遍依存関係解析用にさらに微調整された場合、そのパフォーマンスは、単一の方言からの品詞データのみでトレーニングされた場合でも、弁証法的変動に対して堅牢でした。
私たちの調査結果は、大規模な多言語モデルでは、前処理中のスペルの正規化の必要性が最小限に抑えられることを示唆しています。

要約(オリジナル)

Effectively normalizing textual data poses a considerable challenge, especially for low-resource languages lacking standardized writing systems. In this study, we fine-tuned a multilingual model with data from several Occitan dialects and conducted a series of experiments to assess the model’s representations of these dialects. For evaluation purposes, we compiled a parallel lexicon encompassing four Occitan dialects. Intrinsic evaluations of the model’s embeddings revealed that surface similarity between the dialects strengthened representations. When the model was further fine-tuned for part-of-speech tagging and Universal Dependency parsing, its performance was robust to dialectical variation, even when trained solely on part-of-speech data from a single dialect. Our findings suggest that large multilingual models minimize the need for spelling normalization during pre-processing.

arxiv情報

著者 Zachary William Hopton,Noëmi Aepli
発行日 2024-04-30 07:33:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク