Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback

要約

最近の研究では、LLMが外部フィードバックを与えられたときに応答を改善する能力があることが示されています。
ただし、これらのモデルがどの程度効果的かつ徹底的に、外因性フィードバックを組み込むことができるかは不明のままです。
理想的なシナリオでは、LLMSがほぼ完璧で完全なフィードバックを受け取った場合、フィードバックを完全に統合し、正しい回答を修正して正しい回答を変更することが期待されます。
この論文では、制御された実験環境を設計することにより、フィードバックを組み込むLLMSの能力を体系的に調査します。
各問題について、ソルバーモデルがソリューションを試み、次に、ほぼ完全に完全なグラウンドトゥルース回答にアクセスできるフィードバックジェネレーターがターゲットを絞ったフィードバックを生成し、その後ソルバーが再び試みます。
このパイプラインは、数学の推論、知識の推論、科学的推論、Claude 3.7を含む最先端の言語モデルを使用した一般的なマルチドメイン評価など、さまざまなタスクにわたって評価します(拡張思考の有無にかかわらず)。
驚くべきことに、これらのほぼ理想的な条件下でさえ、ソルバーモデルは常にフィードバックに対する抵抗を示しています。これは、フィードバック摩擦と呼ばれる制限です。
この制限を軽減するために、進行性温度の上昇や以前に試みられた誤った回答の明示的な拒否などのサンプリングベースの戦略を実験します。
また、フィードバック摩擦の潜在的な原因を厳密に探求し、モデルの過度の自信やデータの親しみやすさなどの要因を除外します。
LLMSでこの問題を強調し、いくつかの明らかな原因を除外することが、自己改善の将来の研究に役立つことを願っています。

要約(オリジナル)

Recent studies have shown LLMs possess some ability to improve their responses when given external feedback. However, it remains unclear how effectively and thoroughly these models can incorporate extrinsic feedback. In an ideal scenario, if LLMs receive near-perfect and complete feedback, we would expect them to fully integrate the feedback and change their incorrect answers to correct ones. In this paper, we systematically investigate LLMs’ ability to incorporate feedback by designing a controlled experimental environment. For each problem, a solver model attempts a solution, then a feedback generator with access to near-complete ground-truth answers produces targeted feedback, after which the solver tries again. We evaluate this pipeline across a diverse range of tasks, including math reasoning, knowledge reasoning, scientific reasoning, and general multi-domain evaluations with state-of-the-art language models including Claude 3.7 (with and without extended thinking). Surprisingly, even under these near-ideal conditions, solver models consistently show resistance to feedback, a limitation that we term FEEDBACK FRICTION. To mitigate this limitation, we experiment with sampling-based strategies like progressive temperature increases and explicit rejection of previously attempted incorrect answers, which yield improvements but still fail to help models achieve target performance. We also perform a rigorous exploration of potential causes of FEEDBACK FRICTION, ruling out factors such as model overconfidence and data familiarity. We hope that highlighting this issue in LLMs and ruling out several apparent causes will help future research in self-improvement.

arxiv情報

著者 Dongwei Jiang,Alvin Zhang,Andrew Wang,Nicholas Andrews,Daniel Khashabi
発行日 2025-06-13 16:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク