要約
言語モデルのトレーニングに使用できる多言語テキスト コーパスが限られていると、英語以外の言語の表現空間が十分にトレーニングされていないため、下流タスクのパフォーマンスが低下することがよくあります。
この「過小表現」により、最近の言語を越えた伝達方法は英語の表現空間を活用するようになりました。
入力レベルで英語と「英語以外」のトークンを混合するか、新しい言語に対応するためにモデル パラメーターを拡張します。
ただし、これらのアプローチでは、多くの場合、計算の複雑さが増大します。
私たちは、アダプターにおける Fusion forLanguage Representations (FLARE) を提案します。これは、パラメーターの効率を維持しながら、英語以外の言語の表現品質と下流のパフォーマンスを向上させる新しい方法です。
FLARE は、軽量の線形変換を使用して低ランク (LoRA) アダプタ内でソース言語表現とターゲット言語表現を統合し、パラメータ効率を維持しながら転送パフォーマンスを向上させます。
自然言語推論、質問応答、感情分析など、代表的なクロスリンガル自然言語理解タスクにわたる一連の実験により、FLARE の有効性が実証されました。
完全一致メトリクスで測定すると、FLARE は、質問応答タスクにおける標準の LoRA 微調整と比較して、Llama 3.1 で 4.9%、Gemma~2 で 2.2% のパフォーマンス向上を達成しました。
要約(オリジナル)
Limited availability of multilingual text corpora for training language models often leads to poor performance on downstream tasks due to undertrained representation spaces for languages other than English. This ‘under-representation’ has motivated recent cross-lingual transfer methods to leverage the English representation space by e.g. mixing English and ‘non-English’ tokens at the input level or extending model parameters to accommodate new languages. However, these approaches often come at the cost of increased computational complexity. We propose Fusion forLanguage Representations (FLARE) in adapters, a novel method that enhances representation quality and downstream performance for languages other than English while maintaining parameter efficiency. FLARE integrates source and target language representations within low-rank (LoRA) adapters using lightweight linear transformations, maintaining parameter efficiency while improving transfer performance. A series of experiments across representative cross-lingual natural language understanding tasks, including natural language inference, question-answering and sentiment analysis, demonstrate FLARE’s effectiveness. FLARE achieves performance improvements of 4.9% for Llama 3.1 and 2.2% for Gemma~2 compared to standard LoRA fine-tuning on question-answering tasks, as measured by the exact match metric.
arxiv情報
著者 | Philipp Borchert,Ivan Vulić,Marie-Francine Moens,Jochen De Weerdt |
発行日 | 2025-01-12 18:02:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google