Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via Debate

要約

ChatGPT や GPT-4 などの大規模言語モデル (LLM) は、複雑な推論タスクで優れたパフォーマンスを示しています。
ただし、モデルが真実と論理の深い理解に基づいて推論しているのか、それとも比較的表面的な方法で記憶されたパターンを活用しているのかを知ることは困難です。
この研究では、LLM とディベートのような会話をすることで、LLM の推論をテストすることを検討します。質問が与えられた場合、LLM とユーザーは、反対の議論から始めて正しい決定を下すために話し合う必要があります。
賢いハンス効果を軽減する際、私たちのタスクでは、LLM が自ら正しい答えを導き出すだけでなく、ユーザーの (無効な) 議論や批判を盲目的に信じたり誤解したりするのではなく、その信念を保持し、擁護できることが求められます。
したがって、LLM が問題を解決するために必要な推論の本質を把握しているかどうかをより深くテストします。
数学、常識、論理、BIG-Bench タスクにわたる複雑な推論ベンチマークの範囲にわたって、最初に正しいステップバイステップの解決策を生成する既存の研究で報告されているように、その優れたパフォーマンスにもかかわらず、ChatGPT のような LLM はそのパフォーマンスを維持できないことがわかりました。
多くの場合、不条理に無効な議論によって異議を唱えられた場合、例のかなりの部分が真実であると信じています。
私たちの研究は、モデル調整の危険ゾーンを指摘し、LLM がフィードバックに基づいて応答を改善できるという最近の発見について、より慎重な扱いと解釈を提案しています。

要約(オリジナル)

Large language models (LLMs) such as ChatGPT and GPT-4 have shown impressive performance in complex reasoning tasks. However, it is difficult to know whether the models are reasoning based on deep understandings of truth and logic, or leveraging their memorized patterns in a relatively superficial way. In this work, we explore testing LLMs’ reasoning by engaging with them in a debate-like conversation, where given a question, the LLM and the user need to discuss to make the correct decision starting from opposing arguments. Upon mitigating the Clever Hans effect, our task requires the LLM to not only achieve the correct answer on its own, but also be able to hold and defend its belief instead of blindly believing or getting misled by the user’s (invalid) arguments and critiques, thus testing in greater depth whether the LLM grasps the essence of the reasoning required to solve the problem. Across a range of complex reasoning benchmarks spanning math, commonsense, logic and BIG-Bench tasks, we find that despite their impressive performance as reported in existing work on generating correct step-by-step solutions in the beginning, LLMs like ChatGPT cannot maintain their beliefs in truth for a significant portion of examples when challenged by oftentimes absurdly invalid arguments. Our work points to danger zones of model alignment, and also suggests more careful treatments and interpretations of the recent findings that LLMs can improve their responses based on feedback.

arxiv情報

著者 Boshi Wang,Xiang Yue,Huan Sun
発行日 2023-10-10 17:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク