要約
低リソース言語(LRL)は、データが限られているため、自然言語処理(NLP)の重大な課題に直面しています。
現在の最先端の大規模な言語モデル(LLM)は依然としてLRLと格闘していますが、MbertやXLM-Rなどの小型の多言語モデル(MLM)は、低トレーニングデータサイズの能力により適合するため、より大きな有望です。
この研究では、MLMをLRLに適応させるためのパラメーター効率の高いアダプターベースの方法を体系的に調査し、3つのアーキテクチャを評価します。
GlotCCからの非構造化テキストとコンセプトネットからの構造化された知識を使用して、小さな適応データセット(たとえば、最大1 GBのフリーテキストまたは数MBの知識グラフデータ)が、内因性タスク(マスクされた言語モデリング)と外因性タスク(
トピック分類、センチメント分析、および名前付きエンティティ認識)。
シーケンシャルボトルネックアダプターは言語モデリングに優れていることがわかりますが、反転可能なボトルネックアダプターは、アライメントの埋め込みとパラメーター数が大きいため、下流タスクの他のメソッドをわずかに上回ります。
アダプターベースのメソッドは、パラメーターをはるかに少なく使用しながら、完全な微調整を一致または上回り、LLAM-3、GPT-4、DeepSeek-R1ベースの蒸留モデルなどの大規模なLLMよりもLRLに対してより効果的であることが証明されます。
適応はパフォーマンスを改善しますが、特に広範なトレーニング前のカバレッジを持つ言語では、トレーニング前のデータサイズが支配的な要因のままです。
要約(オリジナル)
Low-resource languages (LRLs) face significant challenges in natural language processing (NLP) due to limited data. While current state-of-the-art large language models (LLMs) still struggle with LRLs, smaller multilingual models (mLMs) such as mBERT and XLM-R offer greater promise due to a better fit of their capacity to low training data sizes. This study systematically investigates parameter-efficient adapter-based methods for adapting mLMs to LRLs, evaluating three architectures: Sequential Bottleneck, Invertible Bottleneck, and Low-Rank Adaptation. Using unstructured text from GlotCC and structured knowledge from ConceptNet, we show that small adaptation datasets (e.g., up to 1 GB of free-text or a few MB of knowledge graph data) yield gains in intrinsic (masked language modeling) and extrinsic tasks (topic classification, sentiment analysis, and named entity recognition). We find that Sequential Bottleneck adapters excel in language modeling, while Invertible Bottleneck adapters slightly outperform other methods on downstream tasks due to better embedding alignment and larger parameter counts. Adapter-based methods match or outperform full fine-tuning while using far fewer parameters, and smaller mLMs prove more effective for LRLs than massive LLMs like LLaMA-3, GPT-4, and DeepSeek-R1-based distilled models. While adaptation improves performance, pre-training data size remains the dominant factor, especially for languages with extensive pre-training coverage.
arxiv情報
著者 | Daniil Gurgurov,Ivan Vykopal,Josef van Genabith,Simon Ostermann |
発行日 | 2025-02-14 13:10:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google