Go Beyond The Obvious: Probing the gap of INFORMAL reasoning ability between Humanity and LLMs by Detective Reasoning Puzzle Benchmark

要約

非公式推論能力とは、常識、経験、直感に基づいて推論する能力です。人間は日常的に非公式推論を使用して、大量の生きた情報から意思決定に最も影響力のある要素を抽出しています。
言語モデルの開発により、一般的な人工知能の実現が希望を持って現れてきました。
人間の優れた非公式推論能力を考慮すると、言語モデルがどの程度の非公式推論能力を持っているかは学者によって十分に研究されていません。非公式推論能力における人間と言語モデルのギャップを調査するために、この論文は探偵推論ベンチマークを構築します。
は、アクセス可能なオンライン リソースから収集された 1,200 の質問の集合であり、実生活の状況におけるモデルの非公式推論能力を評価することを目的としています。ベンチマークの欠如によって制限されるモデルの非公式推論能力の向上を考慮して、さらに自問プロンプトを提案します。
人間の思考を模倣してモデルの非公式推論能力を強化するフレームワーク。自問の目標は、重要な要素を見つけ、これらの要素間のつながりを深く調査し、各要素と問題の関係を促進し、最後にモデルに次のことを要求することです。
実験結果は、探偵推論ベンチマークにおいて人間のパフォーマンスが SoTA 言語モデルを大幅に上回っていることを示しています。さらに、自問は GPT-4 の非公式推論能力を向上させる上で最も効果的なプロンプト エンジニアリングであることが証明されていますが、それでも効果はあります。
人間の参加者が作成した最低スコアさえも上回っていません。論文が受理されると、ベンチマークのソース コードが公開されます。

要約(オリジナル)

Informal reasoning ability is the ability to reason based on common sense, experience, and intuition.Humans use informal reasoning every day to extract the most influential elements for their decision-making from a large amount of life-like information.With the rapid development of language models, the realization of general artificial intelligence has emerged with hope. Given the outstanding informal reasoning ability of humans, how much informal reasoning ability language models have has not been well studied by scholars.In order to explore the gap between humans and language models in informal reasoning ability, this paper constructs a Detective Reasoning Benchmark, which is an assembly of 1,200 questions gathered from accessible online resources, aims at evaluating the model’s informal reasoning ability in real-life context.Considering the improvement of the model’s informal reasoning ability restricted by the lack of benchmark, we further propose a Self-Question Prompt Framework that mimics human thinking to enhance the model’s informal reasoning ability.The goals of self-question are to find key elements, deeply investigate the connections between these elements, encourage the relationship between each element and the problem, and finally, require the model to reasonably answer the problem.The experimental results show that human performance greatly outperforms the SoTA Language Models in Detective Reasoning Benchmark.Besides, Self-Question is proven to be the most effective prompt engineering in improving GPT-4’s informal reasoning ability, but it still does not even surpass the lowest score made by human participants.Upon acceptance of the paper, the source code for the benchmark will be made publicly accessible.

arxiv情報

著者 Zhouhon Gu,Zihan Li,Lin Zhang,Zhuozhi Xiong,Haoning Ye,Yikai Zhang,Wenhao Huang,Xiaoxuan Zhu,Qianyu He,Rui Xu,Sihang Jiang,Shusen Wang,Zili Wang,Hongwei Feng,Zhixu Li,Yanghua Xiao
発行日 2023-08-09 12:08:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク