要約
以前の研究では、大規模な言語モデルが重要な「英語のバイアス」を示すことを示しています。つまり、タスクが英語で提示されると、しばしばパフォーマンスが向上します。
興味深いことに、推論タスクで特定の他の言語を使用すると、英語よりも優れたパフォーマンスが得られることが観察されています。
ただし、この現象は未調査のままです。
この論文では、推論タスクで多言語主義を活用する上限を探り、多言語の推論が大幅に(10 ACC@$ k $ポイント近く)と堅牢に(翻訳品質と言語の選択の変動の許容範囲)が英語のみの推論よりも高い上限を示唆していることを示唆しています。
また、上限の背後にある理由とそれに到達する際の課題を分析することに加えて、一般的な回答選択方法は、その制限と偏見のためにこの上限を達成できないことがわかります。
これらの洞察は、LLMSの多言語推論の可能性を完全に活用することを目的とした将来の研究への道を開く可能性があります。
要約(オリジナル)
Previous work indicates that large language models exhibit a significant ‘English bias’, i.e. they often perform better when tasks are presented in English. Interestingly, we have observed that using certain other languages in reasoning tasks can yield better performance than English. However, this phenomenon remains under-explored. In this paper, we explore the upper bound of harnessing multilingualism in reasoning tasks, suggesting that multilingual reasoning promises significantly (by nearly 10 Acc@$k$ points) and robustly (tolerance for variations in translation quality and language choice) higher upper bounds than English-only reasoning. Besides analyzing the reason behind the upper bound and challenges in reaching it, we also find that common answer selection methods cannot achieve this upper bound, due to their limitations and biases. These insights could pave the way for future research aimed at fully harnessing the potential of multilingual reasoning in LLMs.
arxiv情報
著者 | Changjiang Gao,Xu Huang,Wenhao Zhu,Shujian Huang,Lei Li,Fei Yuan |
発行日 | 2025-04-16 07:45:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google