Delving into the Reversal Curse: How Far Can Large Language Models Generalize?

要約

大規模言語モデル (LLM) は前例のない機能を備えていますが、一見些細なタスクに直面した場合、特定の固有の制限も示します。
その代表的な例は、最近議論されている「逆転の呪い」です。これは、「A は B」という事実に基づいてトレーニングされたモデルが、この知識を一般化して「B は A」と推論するのに苦労するときに表面化します。
この論文では、さまざまなタスクにわたる逆転の呪いの発現を調査し、LLM の一般化能力と問題解決メカニズムの両方を掘り下げます。
この調査により、一連の重要な洞察が得られます。 (1) LLM は、多肢選択式の質問の場合のように、文脈の中で A と B の両方が提示された場合、「B は A」と一般化できます。
(2) この一般化能力は、トレーニング文書内の「A は B である」という事実の構造と高度に相関しています。
たとえば、この一般化は、「[名前] は [説明]」で構造化された伝記にのみ適用され、「[説明] は [名前]」には適用されません。
(3) 我々は、LLM が知識の適用中に事実を想起する際に固有のバイアスを持っているという仮説を提案し検証します。これは、学習を成功させるための文書構造の重要性を説明し、強調するものです。
(4) LLM の下流側のパフォーマンスに対するこのバイアスの悪影響は、トレーニングだけではほとんど軽減できません。
これらの興味深い発見に基づいて、私たちの研究は、LLMの固有の動作メカニズムからLLMの汎化能力を解釈するための新しい視点を提示するだけでなく、LLMのためのより効果的な学習方法の開発のための新しい洞察も提供します。

要約(オリジナル)

While large language models (LLMs) showcase unprecedented capabilities, they also exhibit certain inherent limitations when facing seemingly trivial tasks. A prime example is the recently debated ‘reversal curse’, which surfaces when models, having been trained on the fact ‘A is B’, struggle to generalize this knowledge to infer that ‘B is A’. In this paper, we examine the manifestation of the reversal curse across various tasks and delve into both the generalization abilities and the problem-solving mechanisms of LLMs. This investigation leads to a series of significant insights: (1) LLMs are able to generalize to ‘B is A’ when both A and B are presented in the context as in the case of a multiple-choice question. (2) This generalization ability is highly correlated to the structure of the fact ‘A is B’ in the training documents. For example, this generalization only applies to biographies structured in ‘[Name] is [Description]’ but not to ‘[Description] is [Name]’. (3) We propose and verify the hypothesis that LLMs possess an inherent bias in fact recalling during knowledge application, which explains and underscores the importance of the document structure to successful learning. (4) The negative impact of this bias on the downstream performance of LLMs can hardly be mitigated through training alone. Based on these intriguing findings, our work not only presents a novel perspective for interpreting LLMs’ generalization abilities from their intrinsic working mechanism but also provides new insights for the development of more effective learning methods for LLMs.

arxiv情報

著者 Zhengkai Lin,Zhihang Fu,Kai Liu,Liang Xie,Binbin Lin,Wenxiao Wang,Deng Cai,Yue Wu,Jieping Ye
発行日 2024-10-24 14:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク