Reflection-Bench: probing AI intelligence with reflection

要約

予期せぬ結果や反省に応じて信念や行動を適応させる能力は、インテリジェント システムと世界との相互作用の基礎です。
認知科学の観点から見ると、これは人間と AI システムの両方に適用できるインテリジェンスの中心原理として機能します。
大規模言語モデル (LLM) の知能に関する議論に対処するために、私たちはリフレクションベンチを提案します。これは、知覚、記憶、信念の更新、意思決定、予測、反事実を含む、内省に不可欠なコア認知機能にわたる 7 つのタスクで構成される包括的なベンチマークです。
思考とメタ反射。
OpenAI o1、GPT-4、Claude 3.5 Sonnet など 13 の著名な LLM のパフォーマンスを評価しました。結果は、現在の LLM には満足のいく反射能力がまだ不足していることを示しています。
私たちはこれらの結果の根本的な原因を議論し、将来の研究への潜在的な道筋を提案します。
結論として、Reflection-Bench は、環境と確実に対話できる AI を開発するための評価ツールとインスピレーションの両方を提供します。
データとコードは https://github.com/YabYum/ReflectionBench で入手できます。

要約(オリジナル)

The ability to adapt beliefs or behaviors in response to unexpected outcomes, reflection, is fundamental to intelligent systems’ interaction with the world. From a cognitive science perspective, this serves as a core principle of intelligence applicable to both human and AI systems. To address the debate on the intelligence of large language models (LLMs), we propose Reflection-Bench, a comprehensive benchmark comprising 7 tasks spanning core cognitive functions crucial for reflection, including perception, memory, belief updating, decision-making, prediction, counterfactual thinking, and meta-reflection. We evaluate the performances of 13 prominent LLMs such as OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. The results indicate that current LLMs still lack satisfactory reflection ability. We discuss the underlying causes of these results and suggest potential avenues for future research. In conclusion, Reflection-Bench offers both evaluation tools and inspiration for developing AI capable of reliably interacting with the environment. Our data and code are available at https://github.com/YabYum/ReflectionBench.

arxiv情報

著者 Lingyu Li,Yixu Wang,Haiquan Zhao,Shuqi Kong,Yan Teng,Chunbo Li,Yingchun Wang
発行日 2024-10-21 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク