LangBridge: Multilingual Reasoning Without Multilingual Supervision

要約

我々はLangBridgeを紹介する。LangBridgeは、多言語監督なしで多言語推論タスクに言語モデルを適応させるゼロショットアプローチである。LangBridgeは、(1)多言語理解に特化したモデル(例:mT5エンコーダ)と、(2)推論に特化したモデル(例:MetaMath)の、それぞれ異なる側面に特化した2つのモデルを橋渡しすることで動作する。LangBridgeは、2つのモデルの間に最小限の学習可能なパラメータを導入することで、2つのモデルを接続する。LangBridgeは、訓練に英語データしか利用しないにもかかわらず、数学的推論、コード補完、論理的推論、常識的推論の各分野において、低リソース言語の言語モデルの性能を大幅に向上させる。我々の分析は、LangBridgeの有効性が多言語表現の言語にとらわれない特性に由来することを示唆している。私たちはコードとモデルを一般に公開しています。

要約(オリジナル)

We introduce LangBridge, a zero-shot approach to adapt language models for multilingual reasoning tasks without multilingual supervision. LangBridge operates by bridging two models, each specialized in different aspects: (1) one specialized in understanding multiple languages (e.g., mT5 encoder) and (2) one specialized in reasoning (e.g., MetaMath). LangBridge connects the two models by introducing minimal trainable parameters between them. Despite utilizing only English data for training, LangBridge considerably enhances the performance of language models on low-resource languages across mathematical reasoning, code completion, logical reasoning, and commonsense reasoning. Our analysis suggests that the efficacy of LangBridge stems from the language-agnostic characteristics of multilingual representations. We publicly release our code and models.

arxiv情報

著者 Dongkeun Yoon,Joel Jang,Sungdong Kim,Seungone Kim,Sheikh Shafayat,Minjoon Seo
発行日 2024-06-03 13:32:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク