Piecing Together Clues: A Benchmark for Evaluating the Detective Skills of Large Language Models

要約

刑事は、さまざまな事件にわたる意思決定を行う際、特に膨大な量の情報に直面した場合、情報の検出と推論を同時に行うことがよくあります。
大規模言語モデル (LLM) の急速な発展に伴い、これらのモデルが重要な情報と質問を解決する理由をどのように識別するかを評価することの重要性がますます高まっています。
複雑で暗黙的な情報に直面した場合に、重要な情報の検出とマルチホップ推論におけるモデルの能力を共同で評価するために設計された読解データセットである DetectBench を紹介します。
DetectBench は 3,928 の質問で構成され、各質問は平均 190 トークンの長さの段落とペアになっています。
モデルの探偵スキルを強化するために、探偵思考フレームワークを提案します。
これらの方法により、モデルは推論する前にコンテキスト内で考えられるすべての手がかりを特定することができます。
私たちの実験では、既存のモデルが情報検出とマルチホップ推論の両方でパフォーマンスが低いことが明らかになりました。
ただし、探偵思考フレームワークのアプローチを使用すると、この問題が軽減されます。

要約(オリジナル)

Detectives frequently engage in information detection and reasoning simultaneously when making decisions across various cases, especially when confronted with a vast amount of information. With the rapid development of large language models~(LLMs), evaluating how these models identify key information and reason to solve questions becomes increasingly relevant. We introduces the DetectBench, a reading comprehension dataset designed to assess a model’s ability to jointly ability in key information detection and multi-hop reasoning when facing complex and implicit information. The DetectBench comprises 3,928 questions, each paired with a paragraph averaging 190 tokens in length. To enhance model’s detective skills, we propose the Detective Thinking Framework. These methods encourage models to identify all possible clues within the context before reasoning. Our experiments reveal that existing models perform poorly in both information detection and multi-hop reasoning. However, the Detective Thinking Framework approach alleviates this issue.

arxiv情報

著者 Zhouhong Gu,Lin Zhang,Jiangjie Chen,Haoning Ye,Xiaoxuan Zhu,Zihan Li,Zheyu Ye,Yan Gao,Yao Hu,Yanghua Xiao,Hongwei Feng
発行日 2024-03-20 11:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク