要約
このホワイトペーパーでは、探偵ゲームのエース弁護士とダンガンロンパのインタラクティブなゲームプレイを活用することにより、大規模な言語モデル(LLMS)の演ductive的推論能力を評価するための新しいフレームワークとデータセットであるTurnaboutllmを紹介します。
このフレームワークは、長い物語の文脈内での証言と証拠の間の矛盾を特定することをLLMSにタスクします。これは、その質問によって提示される大きな回答空間と多様な推論タイプのための挑戦的なタスクです。
データセット上の12の最先端のLLMを評価し、広範な思考や考え方の促しなどの演ductive的推論を強化するための一般的な戦略の制限を示唆しています。
また、結果は、コンテキストサイズのさまざまな影響、推論ステップの数、モデルのパフォーマンスに対するスペースサイズの回答を示唆しています。
全体として、Turnaboutllmは、複雑で物語の豊富な環境におけるLLMSの演ductive的推論能力に大きな課題を提示します。
要約(オリジナル)
This paper introduces TurnaboutLLM, a novel framework and dataset for evaluating the deductive reasoning abilities of Large Language Models (LLMs) by leveraging the interactive gameplay of detective games Ace Attorney and Danganronpa. The framework tasks LLMs with identifying contradictions between testimonies and evidences within long narrative contexts, a challenging task due to the large answer space and diverse reasoning types presented by its questions. We evaluate twelve state-of-the-art LLMs on the dataset, hinting at limitations of popular strategies for enhancing deductive reasoning such as extensive thinking and Chain-of-Thought prompting. The results also suggest varying effects of context size, the number of reasoning step and answer space size on model performance. Overall, TurnaboutLLM presents a substantial challenge for LLMs’ deductive reasoning abilities in complex, narrative-rich environments.
arxiv情報
著者 | Yuan Yuan,Muyu He,Muhammad Adil Shahid,Jiani Huang,Ziyang Li,Li Zhang |
発行日 | 2025-05-21 16:22:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google