要約
非常に低リソース(XLR)言語には、NLPモデルのトレーニングにはかなりのコーパスがあり、辞書や文法書などの利用可能なすべてのリソースの使用を動機づけます。
1つの本(Tanzer et al。、2024)からの機械翻訳は、1つの文法書で長いコンテキストLLMSを促すことにより、LLMSが目にしないXLR言語である英語とカラマンの翻訳を可能にすることを示唆しています。
この翻訳能力の原因を調査し、ほとんどすべての改善が、文法的な説明ではなく、本の並行した例に起因することを発見します。
リソースの低い言語を見たネパールとグアラニについても同様の結果が見つかりました。エンコーダーデコーダー翻訳モデルを微調整するだけで、文法の本でLLMに匹敵するパフォーマンスを実現します。
次に、2つの言語タスク、文法の判断と光沢の予測をテストすることで、文法の本がどこに役立つかを調査し、これらのより関連性の高いタスクで主要な結果を達成する類型的な特徴プロンプトを導入することで、どのような文法的知識が役立つかを探ります。
したがって、XLR言語のタスクに適したデータの重要性を強調します:翻訳の並行例、および言語タスクの文法データ。
長いコンテキストLLMがXLR翻訳の文法的説明を効果的に使用できるという証拠が見つからないため、翻訳などの多言語XLRタスクのデータ収集は、言語の説明よりも並列データに最もよく焦点を当てています。
要約(オリジナル)
Extremely low-resource (XLR) languages lack substantial corpora for training NLP models, motivating the use of all available resources such as dictionaries and grammar books. Machine Translation from One Book (Tanzer et al., 2024) suggests that prompting long-context LLMs with one grammar book enables English-Kalamang translation, an XLR language unseen by LLMs – a noteworthy case of linguistics helping an NLP task. We investigate the source of this translation ability, finding almost all improvements stem from the book’s parallel examples rather than its grammatical explanations. We find similar results for Nepali and Guarani, seen low-resource languages, and we achieve performance comparable to an LLM with a grammar book by simply fine-tuning an encoder-decoder translation model. We then investigate where grammar books help by testing two linguistic tasks, grammaticality judgment and gloss prediction, and we explore what kind of grammatical knowledge helps by introducing a typological feature prompt that achieves leading results on these more relevant tasks. We thus emphasise the importance of task-appropriate data for XLR languages: parallel examples for translation, and grammatical data for linguistic tasks. As we find no evidence that long-context LLMs can make effective use of grammatical explanations for XLR translation, we conclude data collection for multilingual XLR tasks such as translation is best focused on parallel data over linguistic description.
arxiv情報
著者 | Seth Aycock,David Stap,Di Wu,Christof Monz,Khalil Sima’an |
発行日 | 2025-04-24 09:40:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google