要約
大規模言語モデルは、複数の言語にわたって優れた推論能力を実証しています。
ただし、異なる言語の機能間の関係はあまり調査されていません。
この研究では、推論タスクのプロセスを知識検索と知識なし推論の 2 つの部分に分解し、それらの言語を越えた伝達可能性を分析します。
適応され構築された知識不要推論データセットを使用すると、一部の特定のターゲット言語におけるリソースの二次的な影響にもかかわらず、知識不要推論能力がさまざまなソース言語からターゲット言語の方向にほぼ完全に移行できる一方、言語を越えた知識検索が大幅に可能であることを示します。
転送の妨げになります。
さらに、推論タスク中の隠れ状態とフィードフォワードネットワークニューロンの活性化を分析することにより、隠れた表現のより高い類似性と活性化されたニューロンのより大きな重複が、知識検索よりも知識なし推論のより優れた言語間伝達可能性を説明できる可能性があることを示します。
したがって、知識は異なる言語に別々に保存される一方で、知識なしの推論は何らかの言語共有メカニズムに組み込まれていると仮説を立てます。
要約(オリジナル)
Large Language Models have demonstrated impressive reasoning capabilities across multiple languages. However, the relationship between capabilities in different languages is less explored. In this work, we decompose the process of reasoning tasks into two separated parts: knowledge retrieval and knowledge-free reasoning, and analyze the cross-lingual transferability of them. With adapted and constructed knowledge-free reasoning datasets, we show that the knowledge-free reasoning capability can be nearly perfectly transferred across various source-target language directions despite the secondary impact of resource in some specific target languages, while cross-lingual knowledge retrieval significantly hinders the transfer. Moreover, by analyzing the hidden states and feed-forward network neuron activation during the reasoning tasks, we show that higher similarity of hidden representations and larger overlap of activated neurons could explain the better cross-lingual transferability of knowledge-free reasoning than knowledge retrieval. Thus, we hypothesize that knowledge-free reasoning embeds in some language-shared mechanism, while knowledge is stored separately in different languages.
arxiv情報
著者 | Peng Hu,Sizhe Liu,Changjiang Gao,Xin Huang,Xue Han,Junlan Feng,Chao Deng,Shujian Huang |
発行日 | 2024-06-24 14:03:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google