Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex

要約

より高い視覚皮質内の機能表現を理解することは、計算神経科学の基本的な問題です。
大規模なデータセットで前処理された人工ニューラルネットワークは、人間の神経反応と顕著な表現の整合性を示しますが、視覚皮質の画像コンパート可能なモデルの学習は、個人レベルの大規模なfMRIデータセットに依存しています。
高価で、時間型であり、しばしば非実用的なデータ収集の必要性は、新しい主題と刺激に対するエンコーダーの一般化可能性を制限します。
BrainCorlは、新しい被験者や刺激に追加の微調整なしに、少数のショットの例からボクセルワイズの神経反応を予測するためにコンテキスト内の学習を使用します。
さまざまな数のコンテキスト画像刺激を柔軟に条件に条件にできる変圧器アーキテクチャを活用し、複数の被験者に対する誘導バイアスを学習します。
トレーニング中に、コンテキスト内学習のモデルを明示的に最適化します。
画像機能とボクセルの活性化を共同で条件付けすることにより、モデルは、より高い視覚皮質のより良いパフォーマンスのボクセルワイズモデルを直接生成することを学びます。
BrainCorlは、完全に新しい画像で評価されたときに、低DATAレジームで既存のVoxelWiseエンコーダー設計を常に上回ると同時に、強力なテスト時間スケーリング動作を示すことを実証します。
このモデルは、異なるサブジェクトとfMRIデータ収集パラメーターを使用するまったく新しいVisual fMRIデータセットにも一般化します。
さらに、BrainCorlは、意味的に関連する刺激に参加することにより、より高い視覚皮質の神経信号のより良い解釈可能性を促進します。
最後に、私たちのフレームワークは、自然言語のクエリからボクセル選択性までの解釈可能なマッピングを可能にすることを示します。

要約(オリジナル)

Understanding functional representations within higher visual cortex is a fundamental question in computational neuroscience. While artificial neural networks pretrained on large-scale datasets exhibit striking representational alignment with human neural responses, learning image-computable models of visual cortex relies on individual-level, large-scale fMRI datasets. The necessity for expensive, time-intensive, and often impractical data acquisition limits the generalizability of encoders to new subjects and stimuli. BraInCoRL uses in-context learning to predict voxelwise neural responses from few-shot examples without any additional finetuning for novel subjects and stimuli. We leverage a transformer architecture that can flexibly condition on a variable number of in-context image stimuli, learning an inductive bias over multiple subjects. During training, we explicitly optimize the model for in-context learning. By jointly conditioning on image features and voxel activations, our model learns to directly generate better performing voxelwise models of higher visual cortex. We demonstrate that BraInCoRL consistently outperforms existing voxelwise encoder designs in a low-data regime when evaluated on entirely novel images, while also exhibiting strong test-time scaling behavior. The model also generalizes to an entirely new visual fMRI dataset, which uses different subjects and fMRI data acquisition parameters. Further, BraInCoRL facilitates better interpretability of neural signals in higher visual cortex by attending to semantically relevant stimuli. Finally, we show that our framework enables interpretable mappings from natural language queries to voxel selectivity.

arxiv情報

著者 Muquan Yu,Mu Nan,Hossein Adeli,Jacob S. Prince,John A. Pyles,Leila Wehbe,Margaret M. Henderson,Michael J. Tarr,Andrew F. Luo
発行日 2025-05-21 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC | Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex はコメントを受け付けていません

ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy

要約

チェーンオブシャーテーション(COT)プロンプトは、大規模な言語モデル(LLMS)の推論を改善する一方で、推論トークンの過度の長さはレイテンシとKVキャッシュメモリの使用量を増加させ、コンテキスト制限の下で最終回答を切り捨てることさえあります。
推論生成を早期に終了し、モデルを変更せずに出力品質を維持する推論効率の高いフレームワークであるThinklessを提案します。
Atttention分析により、回答トークンは以前の推論ステップに最小限に焦点を合わせ、主に因果マスキングの下で​​の情報移行により、主に推論ターミネータートークンに注意を払うことが明らかになりました。
この洞察に基づいて、Thinklessがターミネータートークンを以前の位置に挿入して、基礎となる知識移転を維持しながら冗長な推論をスキップします。
早期終了によって分類された形式の減少を防ぐために、ThinkLessは、明確な回答後の軽量規制メカニズムを採用し、モデルの自然な指導に依存する能力に依存して、明確に構成された回答を生成します。
微調整または補助データがなければ、Thinklessは、デコード時間とメモリ消費を大幅に削減しながら、フルレングスのCOTデコードに匹敵する精度を達成します。

要約(オリジナル)

While Chain-of-Thought (CoT) prompting improves reasoning in large language models (LLMs), the excessive length of reasoning tokens increases latency and KV cache memory usage, and may even truncate final answers under context limits. We propose ThinkLess, an inference-efficient framework that terminates reasoning generation early and maintains output quality without modifying the model. Atttention analysis reveals that answer tokens focus minimally on earlier reasoning steps and primarily attend to the reasoning terminator token, due to information migration under causal masking. Building on this insight, ThinkLess inserts the terminator token at earlier positions to skip redundant reasoning while preserving the underlying knowledge transfer. To prevent format discruption casued by early termination, ThinkLess employs a lightweight post-regulation mechanism, relying on the model’s natural instruction-following ability to produce well-structured answers. Without fine-tuning or auxiliary data, ThinkLess achieves comparable accuracy to full-length CoT decoding while greatly reducing decoding time and memory consumption.

arxiv情報

著者 Gengyang Li,Yifeng Gao,Yuming Li,Yunfang Wu
発行日 2025-05-21 15:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy はコメントを受け付けていません

Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities

要約

強化学習(RL)は、推論モデルをトレーニングするための効果的な方法として浮上しています。
ただし、既存のRLアプローチは通常、外部の知識を導入することなく、モデルの出力分布を報酬最大化パスに向けてバイアスします。
これにより、探索能力が制限され、ベースモデルと比較してより狭い推論能力境界が得られます。
この制限に対処するために、外部の高レベルガイダンス(「思考パターン」)を組み込むことでRLを補強する新しいフレームワークであるTAPO(思考能力のある政策最適化)を提案します。
トレーニング中に構造化された思考を適応的に統合することにより、TAPOはモデル内部探査と外部ガイダンスの搾取を効果的にバランスさせます。
広範な実験により、私たちのアプローチは、AIMEでGRPOを99%、AMCで41%、Minerva Mathで17%を大幅に上回ることが示されています。
特に、これらの高レベルの思考パターンは、わずか500の以前のサンプルから抽象化されており、さまざまなタスクやモデルに効果的に一般化されています。
これは、複数のタスクとドメインにわたるより広範なアプリケーションのTapoの可能性を強調しています。
さらなる分析により、外部ガイダンスを導入することで、推論行動の優れた説明可能性と出力読み取り可能性が向上した強力な推論モデルが生成されることが明らかになりました。

要約(オリジナル)

Reinforcement learning (RL) has emerged as an effective method for training reasoning models. However, existing RL approaches typically bias the model’s output distribution toward reward-maximizing paths without introducing external knowledge. This limits their exploration capacity and results in a narrower reasoning capability boundary compared to base models. To address this limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel framework that augments RL by incorporating external high-level guidance (‘thought patterns’). By adaptively integrating structured thoughts during training, TAPO effectively balances model-internal exploration and external guidance exploitation. Extensive experiments show that our approach significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva Math. Notably, these high-level thought patterns, abstracted from only 500 prior samples, generalize effectively across various tasks and models. This highlights TAPO’s potential for broader applications across multiple tasks and domains. Our further analysis reveals that introducing external guidance produces powerful reasoning models with superior explainability of inference behavior and enhanced output readability.

arxiv情報

著者 Jinyang Wu,Chonghua Liao,Mingkuan Feng,Shuai Zhang,Zhengqi Wen,Pengpeng Shao,Huazhe Xu,Jianhua Tao
発行日 2025-05-21 16:06:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities はコメントを受け付けていません

Can Large Language Models be Effective Online Opinion Miners?

要約

ユーザーが生成したオンラインコンテンツの急増は、顧客の好みと市場動向に関する豊富な洞察を提示します。
ただし、このような内容の非常に多様で複雑でコンテキストが豊富な性質は、従来の意見採掘アプローチに大きな課題をもたらします。
これに対処するために、多様で複雑なオンライン環境から効果的に意見をマイニングする大きな言語モデル(LLM)の能力を評価するために設計された新しいデータセットと評価プロトコルであるオンラインオピニオンマイニングベンチマーク(OOMB)を紹介します。
OOMBは、各コンテンツ内の重要な意見のトピックを強調する広範な(エンティティ、機能、意見)タプルアノテーションと、モデルの抽出および抽象的機能の両方の評価を可能にする包括的な意見中心の要約を提供します。
提案されたベンチマークを通じて、どの側面が挑戦的であり、LLMが適応性を示す包括的な分析を実施して、現実的なオンラインシナリオで意見鉱夫として効果的に役立つかどうかを調査します。
この研究では、LLMベースの意見マイニングの基礎となり、この分野での将来の研究の方向性について説明します。

要約(オリジナル)

The surge of user-generated online content presents a wealth of insights into customer preferences and market trends. However, the highly diverse, complex, and context-rich nature of such contents poses significant challenges to traditional opinion mining approaches. To address this, we introduce Online Opinion Mining Benchmark (OOMB), a novel dataset and evaluation protocol designed to assess the ability of large language models (LLMs) to mine opinions effectively from diverse and intricate online environments. OOMB provides extensive (entity, feature, opinion) tuple annotations and a comprehensive opinion-centric summary that highlights key opinion topics within each content, thereby enabling the evaluation of both the extractive and abstractive capabilities of models. Through our proposed benchmark, we conduct a comprehensive analysis of which aspects remain challenging and where LLMs exhibit adaptability, to explore whether they can effectively serve as opinion miners in realistic online scenarios. This study lays the foundation for LLM-based opinion mining and discusses directions for future research in this field.

arxiv情報

著者 Ryang Heo,Yongsik Seo,Junseong Lee,Dongha Lee
発行日 2025-05-21 16:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can Large Language Models be Effective Online Opinion Miners? はコメントを受け付けていません

MaxPoolBERT: Enhancing BERT Classification via Layer- and Token-Wise Aggregation

要約

BERTの[CLS]トークンは、一般的に分類タスクの固定長い表現として使用されていますが、他のトークンと中間層の両方が貴重なコンテキスト情報をエンコードすることが以前の研究で示されています。
この作業では、レイヤーとトークンを越えて情報を集約することにより[CLS]表現を改良するBERTの軽量拡張機能であるMaxpoolbertを提案します。
具体的には、3つの変更を調査します。(i)複数のレイヤーにわたって[CLS]トークンを最大プーリングする、(ii)[CLS]トークンが最終層全体に出席し、追加のマルチヘッド注意(MHA)層を使用して、MHAとの完全なシーケンス全体の最大プーリングを組み合わせた(III)。
私たちのアプローチは、モデルサイズを事前に訓練または大幅に増加させることなく、Bertの分類精度(特に低リソースタスクで)を強化します。
接着剤ベンチマークでの実験は、Maxpoolbertが標準のBertベースモデルで一貫してより良いパフォーマンスを達成することを示しています。

要約(オリジナル)

The [CLS] token in BERT is commonly used as a fixed-length representation for classification tasks, yet prior work has shown that both other tokens and intermediate layers encode valuable contextual information. In this work, we propose MaxPoolBERT, a lightweight extension to BERT that refines the [CLS] representation by aggregating information across layers and tokens. Specifically, we explore three modifications: (i) max-pooling the [CLS] token across multiple layers, (ii) enabling the [CLS] token to attend over the entire final layer using an additional multi-head attention (MHA) layer, and (iii) combining max-pooling across the full sequence with MHA. Our approach enhances BERT’s classification accuracy (especially on low-resource tasks) without requiring pre-training or significantly increasing model size. Experiments on the GLUE benchmark show that MaxPoolBERT consistently achieves a better performance on the standard BERT-base model.

arxiv情報

著者 Maike Behrendt,Stefan Sylvius Wagner,Stefan Harmeling
発行日 2025-05-21 16:10:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | MaxPoolBERT: Enhancing BERT Classification via Layer- and Token-Wise Aggregation はコメントを受け付けていません

‘Alexa, can you forget me?’ Machine Unlearning Benchmark in Spoken Language Understanding

要約

機械学習モデルから特定の情報を効率的に削除するプロセスであるマシンの未学習は、責任あるAIにとって成長する関心分野です。
ただし、複雑なタスク、特に音声関連のタスクに対する未解決の方法の有効性を調査した研究はほとんどありません。
このペーパーでは、4つの言語に及ぶ4つのデータセットに焦点を当てた、音声言語理解(SLU)のマシンの最初のベンチマークであるUnslu-Benchを紹介します。
特定のスピーカーからのデータの解除に、「忘れられる権利」の潜在的な品質を評価する方法として対処します。
8つの学習技術を評価し、その有効性、有用性、および効率を同時にキャプチャするために、新しいメトリックを提案します。
Unslu-Benchは、SLUでの学習の基盤を設定し、さまざまな手法の有効性と計算可能性に大きな違いを明らかにしています。

要約(オリジナル)

Machine unlearning, the process of efficiently removing specific information from machine learning models, is a growing area of interest for responsible AI. However, few studies have explored the effectiveness of unlearning methods on complex tasks, particularly speech-related ones. This paper introduces UnSLU-BENCH, the first benchmark for machine unlearning in spoken language understanding (SLU), focusing on four datasets spanning four languages. We address the unlearning of data from specific speakers as a way to evaluate the quality of potential ‘right to be forgotten’ requests. We assess eight unlearning techniques and propose a novel metric to simultaneously better capture their efficacy, utility, and efficiency. UnSLU-BENCH sets a foundation for unlearning in SLU and reveals significant differences in the effectiveness and computational feasibility of various techniques.

arxiv情報

著者 Alkis Koudounas,Claudio Savelli,Flavio Giobergia,Elena Baralis
発行日 2025-05-21 16:13:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | ‘Alexa, can you forget me?’ Machine Unlearning Benchmark in Spoken Language Understanding はコメントを受け付けていません

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

要約

大規模な言語モデル(LLMS)は、ハードウェア説明言語(HDL)の生成やデバッグなど、ハードウェア設計タスクの可能性を実証しています。
しかし、現実世界のリポジトリレベルのHDLプロジェクトでの彼らのパフォーマンスは、数千または数万のコードラインを含むプロジェクトを妨げています。
この目的のために、グラフ検索拡張生成(グラフRAG)をLLMSと統合する新しいフレームワークであるHDLXGraphを提案し、抽象的な構文ツリー(AST)とデータフローグラフ(DFG)を組み込んだHDL固有のグラフ表現を導入して、コードグラフビューとハードウェアグラフビューの両方をキャプチャします。
HDLXGraphは、構造情報を組み込むことにより、類似性に基づくセマンティック検索に固有の限られたリコール問題を軽減するだけでなく、タスク固有の回収によるさまざまな現実世界のタスクへの拡張性を高めるだけでなく、類似性に基づいたセマンティック検索に固有の限られたリコールの問題を軽減するだけでなく、デュアルレトリエバルメカニズムを利用します。
さらに、包括的なHDL検索ベンチマークの欠如に対処するために、実際のリポジトリレベルのプロジェクトから派生した多粒度評価データセットであるHDLSearchを紹介します。
実験結果は、HDLXGraphが、類似性ベースのRAGと比較して、それぞれ平均検索精度、デバッグ効率、完了品質を12.04%、12.22%、5.04%改善することを示しています。
hdlxgraphのコードと収集されたhdlsearchベンチマークは、https://github.com/nick-zheng-q/hdlxgraphで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated their potential in hardware design tasks, such as Hardware Description Language (HDL) generation and debugging. Yet, their performance in real-world, repository-level HDL projects with thousands or even tens of thousands of code lines is hindered. To this end, we propose HDLxGraph, a novel framework that integrates Graph Retrieval Augmented Generation (Graph RAG) with LLMs, introducing HDL-specific graph representations by incorporating Abstract Syntax Trees (ASTs) and Data Flow Graphs (DFGs) to capture both code graph view and hardware graph view. HDLxGraph utilizes a dual-retrieval mechanism that not only mitigates the limited recall issues inherent in similarity-based semantic retrieval by incorporating structural information, but also enhances its extensibility to various real-world tasks by a task-specific retrieval finetuning. Additionally, to address the lack of comprehensive HDL search benchmarks, we introduce HDLSearch, a multi-granularity evaluation dataset derived from real-world repository-level projects. Experimental results demonstrate that HDLxGraph significantly improves average search accuracy, debugging efficiency and completion quality by 12.04%, 12.22% and 5.04% compared to similarity-based RAG, respectively. The code of HDLxGraph and collected HDLSearch benchmark are available at https://github.com/Nick-Zheng-Q/HDLxGraph.

arxiv情報

著者 Pingqing Zheng,Jiayin Qin,Fuqi Zhang,Shang Wu,Yu Cao,Caiwen Ding,Yang,Zhao
発行日 2025-05-21 16:14:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CL, cs.LG | HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases はコメントを受け付けていません

LyapLock: Bounded Knowledge Preservation in Sequential Large Language Model Editing

要約

大規模な言語モデルには、多くの場合、事実上不正確または時代遅れの知識が含まれており、正確な知識の更新のためのモデル編集方法が生じます。
ただし、現在の主流の位置は、長期的な知識の保存のための不十分なメカニズムのため、連続編集中に進行性のパフォーマンスの低下を示します。
これに取り組むために、制約された確率的プログラミングとしてシーケンシャル編集をモデル化します。
累積保存エラーの制約と徐々に明らかにされた編集タスクによってもたらされる課題を考えると、\ textbf {lyaplock}が提案されています。
キューイング理論とリアプノフの最適化を統合して、長期的に制約されたプログラミングを効率的な解決のために扱いやすい段階的サブ問題に分解します。
これは、厳密な理論的保証を備えた最初のモデル編集フレームワークであり、長期的な知識保存の制約を満たしながら漸近最適な編集パフォーマンスを達成します。
実験結果は、我々のフレームワークが10,000を超える編集能力をスケーリングしながら、一般的な機能を安定させ、SOTAベースラインで平均編集効果を11.89%増加させることを示しています。
さらに、ベースラインメソッドのパフォーマンスを向上させるために活用できます。
私たちのコードは、https://github.com/caskcsg/lyaplockでリリースされています。

要約(オリジナル)

Large Language Models often contain factually incorrect or outdated knowledge, giving rise to model editing methods for precise knowledge updates. However, current mainstream locate-then-edit approaches exhibit a progressive performance decline during sequential editing, due to inadequate mechanisms for long-term knowledge preservation. To tackle this, we model the sequential editing as a constrained stochastic programming. Given the challenges posed by the cumulative preservation error constraint and the gradually revealed editing tasks, \textbf{LyapLock} is proposed. It integrates queuing theory and Lyapunov optimization to decompose the long-term constrained programming into tractable stepwise subproblems for efficient solving. This is the first model editing framework with rigorous theoretical guarantees, achieving asymptotic optimal editing performance while meeting the constraints of long-term knowledge preservation. Experimental results show that our framework scales sequential editing capacity to over 10,000 edits while stabilizing general capabilities and boosting average editing efficacy by 11.89\% over SOTA baselines. Furthermore, it can be leveraged to enhance the performance of baseline methods. Our code is released on https://github.com/caskcsg/LyapLock.

arxiv情報

著者 Peng Wang,Biyu Zhou,Xuehai Tang,Jizhong Han,Songlin Hu
発行日 2025-05-21 16:16:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LyapLock: Bounded Knowledge Preservation in Sequential Large Language Model Editing はコメントを受け付けていません

Advancing LLM Safe Alignment with Safety Representation Ranking

要約

大規模な言語モデル(LLMS)の急速な進歩は、さまざまなタスクでマイルストーンの成功を実証していますが、有害なコンテンツを生成する可能性は重大な安全上の懸念を引き起こしました。
既存の安全評価アプローチは、通常、テキスト応答に直接動作し、モデルの内部表現に組み込まれた豊富な情報を見落とします。
この論文では、LLM自体から隠された状態を使用して安全な応答を選択するリストごとのランキングフレームワークである安全性表現ランキング(SRR)を提案します。
SRRは、中間変圧器の表現を使用して指示と候補の両方の完了をエンコードし、軽量の類似性ベースの得点者を介して候補者をランク付けします。
私たちのアプローチは、内部モデルの状態とリストレベルでの監督を直接活用して、微妙な安全信号をキャプチャします。
複数のベンチマークにわたる実験は、SRRが敵対的なプロンプトに対する堅牢性を大幅に改善することを示しています。
私たちのコードは公開時に利用可能になります。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has demonstrated milestone success in a variety of tasks, yet their potential for generating harmful content has raised significant safety concerns. Existing safety evaluation approaches typically operate directly on textual responses, overlooking the rich information embedded in the model’s internal representations. In this paper, we propose Safety Representation Ranking (SRR), a listwise ranking framework that selects safe responses using hidden states from the LLM itself. SRR encodes both instructions and candidate completions using intermediate transformer representations and ranks candidates via a lightweight similarity-based scorer. Our approach directly leverages internal model states and supervision at the list level to capture subtle safety signals. Experiments across multiple benchmarks show that SRR significantly improves robustness to adversarial prompts. Our code will be available upon publication.

arxiv情報

著者 Tianqi Du,Zeming Wei,Quan Chen,Chenheng Zhang,Yisen Wang
発行日 2025-05-21 16:21:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Advancing LLM Safe Alignment with Safety Representation Ranking はコメントを受け付けていません

TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games

要約

このホワイトペーパーでは、探偵ゲームのエース弁護士とダンガンロンパのインタラクティブなゲームプレイを活用することにより、大規模な言語モデル(LLMS)の演ductive的推論能力を評価するための新しいフレームワークとデータセットであるTurnaboutllmを紹介します。
このフレームワークは、長い物語の文脈内での証言と証拠の間の矛盾を特定することをLLMSにタスクします。これは、その質問によって提示される大きな回答空間と多様な推論タイプのための挑戦的なタスクです。
データセット上の12の最先端のLLMを評価し、広範な思考や考え方の促しなどの演ductive的推論を強化するための一般的な戦略の制限を示唆しています。
また、結果は、コンテキストサイズのさまざまな影響、推論ステップの数、モデルのパフォーマンスに対するスペースサイズの回答を示唆しています。
全体として、Turnaboutllmは、複雑で物語の豊富な環境におけるLLMSの演ductive的推論能力に大きな課題を提示します。

要約(オリジナル)

This paper introduces TurnaboutLLM, a novel framework and dataset for evaluating the deductive reasoning abilities of Large Language Models (LLMs) by leveraging the interactive gameplay of detective games Ace Attorney and Danganronpa. The framework tasks LLMs with identifying contradictions between testimonies and evidences within long narrative contexts, a challenging task due to the large answer space and diverse reasoning types presented by its questions. We evaluate twelve state-of-the-art LLMs on the dataset, hinting at limitations of popular strategies for enhancing deductive reasoning such as extensive thinking and Chain-of-Thought prompting. The results also suggest varying effects of context size, the number of reasoning step and answer space size on model performance. Overall, TurnaboutLLM presents a substantial challenge for LLMs’ deductive reasoning abilities in complex, narrative-rich environments.

arxiv情報

著者 Yuan Yuan,Muyu He,Muhammad Adil Shahid,Jiani Huang,Ziyang Li,Li Zhang
発行日 2025-05-21 16:22:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games はコメントを受け付けていません