要約
私たちは、ChatGPT などの大規模言語モデル (LLM) の推論能力を、主題についての理解を深めるディベートのような会話に参加させることでテストすることを検討します。
具体的には、質問が与えられると、ユーザーが最初は間違った解決策を信じている一方で、LLM が正しい解決策を生成できる新しいタスクを策定します。ユーザーは対話を通じて正しい決定を下すために話し合う必要があります。
このような設定では、LLM が自ら正しい答えを導き出すだけでなく (浅い暗記によって達成できる)、ユーザーの (無効な) 議論や批判を盲目的に信じたり誤解したりするのではなく、真実を守ることができる必要もあります。
したがって、LLM が問題を解決するために必要な推論の本質を把握しているかどうかをより深くテストします。
この評価フレームワークを自動化し、人的労力を節約するために、合成された間違ったソリューションを条件とした別の LLM を使用してユーザーをシミュレートします。
数学、常識、論理、BIG-Bench のタスクにわたる複雑な推論ベンチマークを幅広く実行したところ、最初は正しい段階的な解決策を生成できたにもかかわらず、ChatGPT はかなりの部分で真実への信念を維持できないことがわかりました。
しばしば不条理に無効な議論に挑戦されたときの例の例。
私たちの研究は、従来のベンチマークでは捉えられなかった LLM の弱点を明らかにし、また、モデルを人間のフィードバックと調整することの危険ゾーンも指摘しています。
要約(オリジナル)
We explore testing the reasoning ability of large language models (LLMs), such as ChatGPT, by engaging with them in a debate-like conversation that probes deeper into their understanding of the subject. Specifically, we formulate a new task where given a question, the LLM can generate a correct solution while the user believes in a wrong solution in the beginning, and they need to discuss to make the correct decision through dialogue. Such a setting requires the LLM to not only achieve the correct answer on its own (which could be done by shallow memorization), but also be able to defend the truth instead of blindly believing or getting misled by the user’s (invalid) arguments and critiques, thus testing in greater depth whether the LLM grasps the essence of the reasoning required to solve the problem. To automate this evaluation framework and save human labor, we simulate the user using another LLM conditioned on a synthesized wrong solution. Across a range of complex reasoning benchmarks spanning math, commonsense, logic and tasks from BIG-Bench, we find that despite being able to generate correct step-by-step solutions in the beginning, ChatGPT cannot maintain its belief in truth for a significant portion of examples when challenged by often-time absurdly invalid arguments. Our work reveals LLMs’ weaknesses not captured by conventional benchmarking, and also points to danger zones of aligning models with human feedback.
arxiv情報
著者 | Boshi Wang,Xiang Yue,Huan Sun |
発行日 | 2023-05-22 15:47:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google