Delving into the Reversal Curse: How Far Can Large Language Models Generalize?

要約

大規模言語モデル (LLM) は前例のない機能を備えていますが、一見些細なタスクに直面した場合、特定の固有の制限も示します。
その代表的な例は、最近議論されている「逆転の呪い」です。これは、「A は B」という事実に基づいてトレーニングされたモデルが、この知識を一般化して「B は A」と推論するのに苦労するときに表面化します。
この論文では、さまざまなタスクにわたる逆転の呪いの発現を調査し、LLM の一般化能力と問題解決メカニズムの両方を掘り下げます。
この調査により、一連の重要な洞察が得られます。 (1) LLM は、多肢選択式の質問の場合のように、文脈の中で A と B の両方が提示された場合、「B は A」と一般化できます。
(2) この一般化能力は、トレーニング文書内の「A は B である」という事実の構造と高度に相関しています。
たとえば、この一般化は、「[名前] は [説明]」で構造化された伝記にのみ適用され、「[説明] は [名前]」には適用されません。
(3) 我々は、LLM が知識の適用中に事実を想起する際に固有のバイアスを持っているという仮説を提案し検証します。これは、学習を成功させるための文書構造の重要性を説明し、強調するものです。
(4) LLM の下流側のパフォーマンスに対するこのバイアスの悪影響は、トレーニングだけではほとんど軽減できません。
これらの発見は、LLM の固有メカニズムを通じて LLM の一般化を解釈する上で新しい視点を提供し、より効果的な学習方法を開発するための洞察を提供します。
私たちのコードとデータは https://github.com/alibaba/ Thinking_bias.git で入手できます。

要約(オリジナル)

While large language models (LLMs) showcase unprecedented capabilities, they also exhibit certain inherent limitations when facing seemingly trivial tasks. A prime example is the recently debated ‘reversal curse’, which surfaces when models, having been trained on the fact ‘A is B’, struggle to generalize this knowledge to infer that ‘B is A’. In this paper, we examine the manifestation of the reversal curse across various tasks and delve into both the generalization abilities and the problem-solving mechanisms of LLMs. This investigation leads to a series of significant insights: (1) LLMs are able to generalize to ‘B is A’ when both A and B are presented in the context as in the case of a multiple-choice question. (2) This generalization ability is highly correlated to the structure of the fact ‘A is B’ in the training documents. For example, this generalization only applies to biographies structured in ‘[Name] is [Description]’ but not to ‘[Description] is [Name]’. (3) We propose and verify the hypothesis that LLMs possess an inherent bias in fact recalling during knowledge application, which explains and underscores the importance of the document structure to successful learning. (4) The negative impact of this bias on the downstream performance of LLMs can hardly be mitigated through training alone. These findings offer a novel perspective on interpreting LLMs’ generalization through their intrinsic mechanisms and provide insights for developing more effective learning methods. Our code and data are available at https://github.com/alibaba/thinking_bias.git.

arxiv情報

著者 Zhengkai Lin,Zhihang Fu,Kai Liu,Liang Xie,Binbin Lin,Wenxiao Wang,Deng Cai,Yue Wu,Jieping Ye
発行日 2024-11-22 09:00:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク