要約
多言語の監視なしで多言語推論タスクに言語モデルを適応させるゼロショット アプローチである LangBridge を紹介します。
LangBridge は、それぞれが異なる側面に特化した 2 つのモデルを橋渡しすることによって動作します。(1) 複数の言語の理解に特化したモデル (例: mT5 エンコーダ)、および (2) 推論に特化したモデル (例: Orca 2)。
LangBridge は、2 つのモデル間にトレーニング可能な最小限のパラメーターを導入することで 2 つのモデルを接続します。
LangBridge は、トレーニングに英語データのみを使用しているにもかかわらず、数学的推論、コーディング、論理的推論にわたって、低リソース言語での言語モデルのパフォーマンスを大幅に向上させます。
私たちの分析は、LangBridge の有効性が多言語表現の言語に依存しない特性に由来していることを示唆しています。
コードとモデルを公開します。
要約(オリジナル)
We introduce LangBridge, a zero-shot approach to adapt language models for multilingual reasoning tasks without multilingual supervision. LangBridge operates by bridging two models, each specialized in different aspects: (1) one specialized in understanding multiple languages (e.g., mT5 encoder) and (2) one specialized in reasoning (e.g., Orca 2). LangBridge connects the two models by introducing minimal trainable parameters between them. Despite utilizing only English data for training, LangBridge considerably enhances the performance of language models on low-resource languages across mathematical reasoning, coding, and logical reasoning. Our analysis suggests that the efficacy of LangBridge stems from the language-agnostic characteristics of multilingual representations. We publicly release our code and models.
arxiv情報
著者 | Dongkeun Yoon,Joel Jang,Sungdong Kim,Seungone Kim,Sheikh Shafayat,Minjoon Seo |
発行日 | 2024-01-19 14:00:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google