要約
自己教師の目的は、大規模な非標識データを活用することにより、NLPの大きな進歩を促進していますが、そのようなリソースは世界の多くの言語ではほとんどありません。
驚くべきことに、それらはキャラクターレベルのタスクについてはあまり探求されていません。このタスクでは、少量のデータが有益である可能性があります。
極端に低リソースの設定で、言語文書に非常に関連する文字レベルのタスクである形態学的変曲のための自己監視補助タスクの有効性を調査します。
自動エンコードは、非標識データが非常に限られている場合、最高のパフォーマンスを生成しますが、キャラクターマスク言語モデリング(CMLM)はデータの可用性が向上するにつれてより効果的になります。
より強い誘導バイアスを持つ目標はモデルの予測に直感的に影響しますが、標準のCMLMを上回ることはめったにありません。
ただし、既知の形態素境界に基づいたサンプリングマスクは、パフォーマンスを一貫して改善し、低リソースの形態モデリングの有望な方向を強調します。
要約(オリジナル)
Self-supervised objectives have driven major advances in NLP by leveraging large-scale unlabeled data, but such resources are scarce for many of the world’s languages. Surprisingly, they have not been explored much for character-level tasks, where smaller amounts of data have the potential to be beneficial. We investigate the effectiveness of self-supervised auxiliary tasks for morphological inflection — a character-level task highly relevant for language documentation — in extremely low-resource settings, training encoder-decoder transformers for 19 languages and 13 auxiliary objectives. Autoencoding yields the best performance when unlabeled data is very limited, while character masked language modeling (CMLM) becomes more effective as data availability increases. Though objectives with stronger inductive biases influence model predictions intuitively, they rarely outperform standard CMLM. However, sampling masks based on known morpheme boundaries consistently improves performance, highlighting a promising direction for low-resource morphological modeling.
arxiv情報
| 著者 | Adam Wiemerslage,Katharina von der Wense |
| 発行日 | 2025-06-05 16:42:45+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google