WHODUNIT: Evaluation benchmark for culprit detection in mystery stories

要約

物語のコンテキスト内で、大規模な言語モデル(LLM)の演ductive的推論能力を評価するために、新しいデータセットであるWhodunitを提示します。
オープンドメインのミステリーノベルと短編小説から構築されたデータセットは、LLMSに挑戦して、ストーリーを読んで理解した後に加害者を特定するように挑戦します。
モデルの堅牢性を評価するために、オリジナルの名前、名前のスワップ、代替など、人気のある談話からの有名な現実および/または架空のエンティティを含む、さまざまなキャラクターレベルの名前の増強を適用します。
さらに、さまざまなプロンプトスタイルを使用して、演ductiveな推論の正確性に対するプロンプトの影響を調査します。
最先端のモデル、特にGPT-4O、GPT-4-Turbo、およびGPT-4O-MINIを使用して評価研究を実施し、信頼性を確保するために多数の反応選択を伴う複数の試験で評価されます。
結果は、LLMが変更されていないテキストで確実に機能するが、特定の名前の置換、特に広く認識されているもので精度が低下することを示しています。
このデータセットはここで公開されています。

要約(オリジナル)

We present a novel data set, WhoDunIt, to assess the deductive reasoning capabilities of large language models (LLM) within narrative contexts. Constructed from open domain mystery novels and short stories, the dataset challenges LLMs to identify the perpetrator after reading and comprehending the story. To evaluate model robustness, we apply a range of character-level name augmentations, including original names, name swaps, and substitutions with well-known real and/or fictional entities from popular discourse. We further use various prompting styles to investigate the influence of prompting on deductive reasoning accuracy. We conduct evaluation study with state-of-the-art models, specifically GPT-4o, GPT-4-turbo, and GPT-4o-mini, evaluated through multiple trials with majority response selection to ensure reliability. The results demonstrate that while LLMs perform reliably on unaltered texts, accuracy diminishes with certain name substitutions, particularly those with wide recognition. This dataset is publicly available here.

arxiv情報

著者 Kshitij Gupta
発行日 2025-02-11 18:14:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク