The Two-Hop Curse: LLMs trained on A->B, B->C fail to learn A–>C

要約

LLM は、思考連鎖推論 (CoT) を使用する場合、マルチホップの質問 (例: 「イマジンの出演者の配偶者は誰ですか?」) には優れていますが、(CoT なしで) 内部的に推論を強いられると苦戦します。
このギャップの大きさと性質に関するこれまでの研究では、さまざまな証拠が得られましたが、決定的な結果は得られませんでした。
この論文では、LLM の 2 ホップ推論を調査するための制御された設定を紹介します。この場合、偶然を超えたパフォーマンスが潜在的な推論の否定できない証拠を構成します。
架空の事実に基づいて LLM (Llama 3 8B Instruct および GPT-4o を含む) を微調整し、CoT を使用して LLM がそれらに関する 2 ホップの質問に答えるように一般化していることを確認します。
トレーニング中またはプロンプト内に事実が同時に現れると、モデルが潜在的な推論を実行できることがわかりました。
しかし、驚いたことに、学習された事実が異なる文書にのみ現れる場合、モデルは CoT なしの 2 ホップ推論で完全に失敗し、偶然レベルの精度と偶然レベルのテスト損失が達成されます。
私たちは、個別に学習した事実を構成するこの完全な失敗を「ツーホップの呪い」と呼びます。
さらに、現実世界の事実に基づいて 9 つのフロンティア LLM を評価したところ、モデルはほとんどのカテゴリで CoT で部分的な成功を維持しながらも、質問カテゴリの半分以上で 2 ホップの CoT なし推論で完全に失敗することがわかりました。
これらの結果は、LLM には質問の種類に関係なく潜在的なマルチホップ推論のための一般的な能力が欠けていることを示唆しています。

要約(オリジナル)

While LLMs excel at multi-hop questions (e.g. ‘Who is the spouse of the performer of Imagine?’) when using chain-of-thought reasoning (CoT), they struggle when forced to reason internally (without CoT). Previous work on the size and nature of this gap produced mixed evidence with inconclusive results. In this paper, we introduce a controlled setting for investigating two-hop reasoning in LLMs, where the above-chance performance constitutes undeniable evidence for latent reasoning. We fine-tune LLMs (including Llama 3 8B Instruct and GPT-4o) on fictional facts and confirm that they generalize to answering two-hop questions about them using CoT. We find that models can perform latent reasoning when facts appear together during training or in the prompt. However, to our surprise, models completely fail at two-hop reasoning without CoT when learned facts only appear in different documents, achieving chance-level accuracy and chance-level test loss. We call this complete failure to compose separately learned facts the Two-Hop Curse. Moreover, we evaluate 9 frontier LLMs on real-world facts, finding that models completely fail at two-hop no-CoT reasoning for over half of question categories while maintaining partial success with CoT across most categories. These results suggest that LLMs lack a general capability for latent multi-hop reasoning independent of the question type.

arxiv情報

著者 Mikita Balesni,Tomek Korbak,Owain Evans
発行日 2024-11-25 13:04:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク