None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks

要約

LLMの評価では、数学指向の質問に数値のバリエーションを実行することにより、推論がリコール/暗記とは区別されます。
ここでは、以前に見られたトークンまたは概念から正しい答えを完全に分離する多肢選択式の質問の一般的なバリエーション方法を紹介します。
この方法を使用して、英語とスペイン語で利用可能な2つのデータセットで、最先端の独自およびオープンソースLLMを評価します。
結果は、すべてのモデルが提案された変動の下で顕著な精度が低下し、MMLUで平均57%、UNEDアクセス2024で50%で、モデル全体で10%から93%の範囲であることを示しています。
特に、実験で最も正確なモデル(OpenAI-O3-MINI)は最も堅牢ではなく(DeepSeek-R1-70B)、標準評価の最良のモデルは、より良い推論能力を持つものではないことを示唆しています。
また、公共(vsプライベート)データセットと元の言語で提起された質問(手動翻訳)でより大きな精度低下が見られます。これは、汚染の兆候であり、現在のLLMSの回答におけるリコール/暗記の関連する役割を示しています。

要約(オリジナル)

In LLM evaluations, reasoning is often distinguished from recall/memorization by performing numerical variations to math-oriented questions. Here we introduce a general variation method for multiple-choice questions that completely dissociates the correct answer from previously seen tokens or concepts, requiring LLMs to understand and reason (rather than memorizing) in order to answer correctly. Using this method, we evaluate state-of-the-art proprietary and open-source LLMs on two datasets available in English and Spanish: the public MMLU benchmark and the private UNED-Access 2024 dataset. Results show that all models experience remarkable accuracy drops under our proposed variation, with an average loss of 57% on MMLU and 50% on UNED-Access 2024, ranging from 10% to 93% across models. Notably, the most accurate model in our experimentation (OpenAI-o3-mini) is not the most robust (DeepSeek-R1-70B), suggesting that the best models in standard evaluations may not be the ones with better reasoning capabilities. Also, we see larger accuracy drops in public (vs private) datasets and questions posed in their original language (vs a manual translation), which are signs of contamination and also point to a relevant role of recall/memorization in current LLMs’ answers.

arxiv情報

著者 Eva Sánchez Salido,Julio Gonzalo,Guillermo Marco
発行日 2025-05-12 10:30:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks はコメントを受け付けていません

Comparative sentiment analysis of public perception: Monkeypox vs. COVID-19 behavioral insights

要約

Covid-19やMonkeypox(MPox)などの世界的な健康危機の出現は、効果的な公衆衛生戦略を知らせるために公共の感情を理解することの重要性を強調しています。
この研究は、それぞれ147,475および106,638のツイートの広範なデータセットを活用することにより、Covid-19およびMPoxを取り巻く公的認識の比較感情分析を実施します。
ロジスティック回帰、ナイーブベイズ、ロバータ、ディスリロベルタ、XLNETなどの高度な機械学習モデルを適用して、センチメント分類を実行し、結果が一般の感情と談話の重要な傾向を示しています。
分析は、病気の特性、メディアの表現、およびパンデミック疲労によって駆動される公共の感情の有意差を強調しています。
センチメントの極性とテーマの傾向のレンズを通して、この研究は、公衆衛生メッセージの調整、誤った情報の緩和、同時の健康危機の間に信頼を促進するための貴重な洞察を提供します。
この調査結果は、公衆衛生情報学における感情分析アプリケーションの進歩、将来の研究におけるリアルタイム監視と多言語分析の強化の基礎を設定することに貢献しています。

要約(オリジナル)

The emergence of global health crises, such as COVID-19 and Monkeypox (mpox), has underscored the importance of understanding public sentiment to inform effective public health strategies. This study conducts a comparative sentiment analysis of public perceptions surrounding COVID-19 and mpox by leveraging extensive datasets of 147,475 and 106,638 tweets, respectively. Advanced machine learning models, including Logistic Regression, Naive Bayes, RoBERTa, DistilRoBERTa and XLNet, were applied to perform sentiment classification, with results indicating key trends in public emotion and discourse. The analysis highlights significant differences in public sentiment driven by disease characteristics, media representation, and pandemic fatigue. Through the lens of sentiment polarity and thematic trends, this study offers valuable insights into tailoring public health messaging, mitigating misinformation, and fostering trust during concurrent health crises. The findings contribute to advancing sentiment analysis applications in public health informatics, setting the groundwork for enhanced real-time monitoring and multilingual analysis in future research.

arxiv情報

著者 Mostafa Mohaimen Akand Faisal,Rabeya Amin Jhuma
発行日 2025-05-12 10:37:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Comparative sentiment analysis of public perception: Monkeypox vs. COVID-19 behavioral insights はコメントを受け付けていません

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

要約

大規模な言語モデル(LLMS)の顕著な成果は、多くの人が知性の形を示すと結論付けています。
これは、膨大な量のデータの比較的単純な操作を実行する能力に基づいたそれらの機能の説明とは対照的です。
これらの説明の区別を明らかにするために、潜在的な離散変数として表される人間の解釈可能な概念に基づいてトークンを生成する新しい生成モデルを紹介します。
穏やかな条件下では、潜在空間から観測された空間へのマッピングが非可変性がある場合でも、識別可能性の結果を確立します。つまり、次のトークン予測を通じてLLMによって学習した表現は、これらの潜在的な離散概念の後部プロブリティの対数の対数として、可逆的な系統変換まで、ほぼモデル化できます。
この理論的発見は、LLMSが根本的な生成要因をキャプチャするという証拠を提供するだけでなく、線形表現仮説を理解するための統一された見込みを提供するだけでなく、統一された見込みを提供します。
これをさらに一歩進めて、私たちの発見は、監視された概念抽出器のパフォーマンスを上限として扱うことにより、スパース自動エンコーダーの信頼できる評価を動機付けます。
このアイデアをさらに推し進めると、スパースを促進することに加えて、潜在的な概念間の依存を強制する構造的なバリアントを刺激します。
経験的には、シミュレーションデータとPythia、Llama、およびDeepseekモデルファミリの両方の評価を通じて理論的結果を検証し、構造化されたスパース自動エンコーダーの有効性を実証します。

要約(オリジナル)

The remarkable achievements of large language models (LLMs) have led many to conclude that they exhibit a form of intelligence. This is as opposed to explanations of their capabilities based on their ability to perform relatively simple manipulations of vast volumes of data. To illuminate the distinction between these explanations, we introduce a novel generative model that generates tokens on the basis of human-interpretable concepts represented as latent discrete variables. Under mild conditions, even when the mapping from the latent space to the observed space is non-invertible, we establish an identifiability result, i.e., the representations learned by LLMs through next-token prediction can be approximately modeled as the logarithm of the posterior probabilities of these latent discrete concepts given input context, up to an invertible linear transformation. This theoretical finding not only provides evidence that LLMs capture underlying generative factors, but also provide a unified prospective for understanding of the linear representation hypothesis. Taking this a step further, our finding motivates a reliable evaluation of sparse autoencoders by treating the performance of supervised concept extractors as an upper bound. Pushing this idea even further, it inspires a structural variant that enforces dependence among latent concepts in addition to promoting sparsity. Empirically, we validate our theoretical results through evaluations on both simulation data and the Pythia, Llama, and DeepSeek model families, and demonstrate the effectiveness of our structured sparse autoencoder.

arxiv情報

著者 Yuhang Liu,Dong Gong,Yichao Cai,Erdun Gao,Zhen Zhang,Biwei Huang,Mingming Gong,Anton van den Hengel,Javen Qinfeng Shi
発行日 2025-05-12 10:45:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? はコメントを受け付けていません

Matching Tasks with Industry Groups for Augmenting Commonsense Knowledge

要約

常識的な知識ベース(KB)は、機械学習アプリケーションを改善するために広く使用されている専門知識の源です。
ただし、コンセプトネットなどの大規模なKBでさえ、各業界ドメインから明示的な知識をキャプチャすることは困難です。
たとえば、さまざまな業界で実行される一般的な{\ emタスク}のサンプルは、コンセプトで利用できます。
ここで、タスクは、特定の目標を達成するための明確に定義された知識に基づいた意欲的な行動です。
この論文では、このギャップを埋めることを目指し、さまざまな業界グループ(IG)が実施したタスクを使用して、成熟したKBを増強するために、弱く監視されたフレームワークを提示することを目指しています。
Neural Modelをトレーニングすることにより、1つ以上の適切なIGを使用して各タスクを{\ em mate} {\ em mate}を試みます。Task-IG Affinityを学び、クラスタリングを適用してIGあたりのTOP-Kタスクを選択します。
$ \ langle igの合計2339トリプルを抽出します。
これにより、既存のKBSに直接追加できる抽出されたタスク-IGペアの信頼性が検証されます。

要約(オリジナル)

Commonsense knowledge bases (KB) are a source of specialized knowledge that is widely used to improve machine learning applications. However, even for a large KB such as ConceptNet, capturing explicit knowledge from each industry domain is challenging. For example, only a few samples of general {\em tasks} performed by various industries are available in ConceptNet. Here, a task is a well-defined knowledge-based volitional action to achieve a particular goal. In this paper, we aim to fill this gap and present a weakly-supervised framework to augment commonsense KB with tasks carried out by various industry groups (IG). We attempt to {\em match} each task with one or more suitable IGs by training a neural model to learn task-IG affinity and apply clustering to select the top-k tasks per IG. We extract a total of 2339 triples of the form $\langle IG, is~capable~of, task \rangle$ from two publicly available news datasets for 24 IGs with the precision of 0.86. This validates the reliability of the extracted task-IG pairs that can be directly added to existing KBs.

arxiv情報

著者 Rituraj Singh,Sachin Pawar,Girish Palshikar
発行日 2025-05-12 11:02:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Matching Tasks with Industry Groups for Augmenting Commonsense Knowledge はコメントを受け付けていません

Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems

要約

人工知能(AI)システムは、自律車両から生体認証まで、ますます重要なアプリケーションを支えているため、移転可能な攻撃に対する脆弱性は懸念が高まっています。
これらの攻撃は、インスタンス、ドメイン、モデル、タスク、モダリティ、さらにはハードウェアプラットフォームを越えて一般化するように設計されており、セキュリティ、プライバシー、およびシステムの完全性に深刻なリスクをもたらします。
この調査では、回避、バックドア、データ中毒、モデルの盗み、モデルの反転、メンバーシップ推論、サイドチャネル攻撃など、7つの主要なカテゴリにわたる7つの主要なカテゴリにわたる譲渡可能な攻撃の最初の包括的なレビューを提供します。
統一された6次元の分類法、クロスインスタンス、クロスドメイン、クロスモデリティ、クロスモデル、クロスタスク、およびクロスハードウェアを紹介します。
このフレームワークを通じて、AIシステムへの移転可能な攻撃の基礎となるメカニズムと実際的な意味の両方を調べます。
さらに、データの増強と最適化戦略を中心に編成された攻撃移転性を高めるための最先端の方法を確認します。
断片化された研究を統合し、重要な将来の方向性を特定することにより、この作業は、現実世界のAIシステムにおける移転可能な脅威を理解、評価、防御するための基礎的なロードマップを提供します。

要約(オリジナル)

As Artificial Intelligence (AI) systems increasingly underpin critical applications, from autonomous vehicles to biometric authentication, their vulnerability to transferable attacks presents a growing concern. These attacks, designed to generalize across instances, domains, models, tasks, modalities, or even hardware platforms, pose severe risks to security, privacy, and system integrity. This survey delivers the first comprehensive review of transferable attacks across seven major categories, including evasion, backdoor, data poisoning, model stealing, model inversion, membership inference, and side-channel attacks. We introduce a unified six-dimensional taxonomy: cross-instance, cross-domain, cross-modality, cross-model, cross-task, and cross-hardware, which systematically captures the diverse transfer pathways of adversarial strategies. Through this framework, we examine both the underlying mechanics and practical implications of transferable attacks on AI systems. Furthermore, we review cutting-edge methods for enhancing attack transferability, organized around data augmentation and optimization strategies. By consolidating fragmented research and identifying critical future directions, this work provides a foundational roadmap for understanding, evaluating, and defending against transferable threats in real-world AI systems.

arxiv情報

著者 Guangjing Wang,Ce Zhou,Yuanda Wang,Bocheng Chen,Hanqing Guo,Qiben Yan
発行日 2025-05-12 11:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV | Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems はコメントを受け付けていません

A Survey on Collaborative Mechanisms Between Large and Small Language Models

要約

大規模な言語モデル(LLM)は強力なAI機能を提供しますが、リソースコストと遅延が高いため、展開の課題に直面していますが、小言語モデル(SLM)はパフォーマンスの低下をコストで効率と展開性を提供します。
LLMSとSLMSのコラボレーションは、これらのトレードオフを相乗的にバランスさせるための重要なパラダイムとして生まれ、特にリソース制約のエッジデバイスで高度なAIアプリケーションを可能にします。
この調査では、LLM-SLMコラボレーションの包括的な概要を提供し、さまざまな相互作用メカニズム(パイプライン、ルーティング、補助、蒸留、融合)、キー有効化テクノロジー、および低遅延、プライバシー、パーソナライズ、およびオフライン操作などのデベイスのニーズが促進する多様なアプリケーションシナリオを詳述します。
より効率的で適応性があり、アクセス可能なAIを作成するための重要な可能性を強調しながら、システムオーバーヘッド、モデル間の一貫性、堅牢なタス​​ク割り当て、評価の複雑さ、セキュリティ/プライバシーの懸念など、持続的な課題についても説明します。
将来の方向性は、よりインテリジェントな適応フレームワーク、より深いモデルの融合、およびマルチモーダルおよび具体化されたAIへの拡大を指し、次世代の実用的でユビキタスな人工知能の重要なドライバーとしてLLM-SLMコラボレーションを配置します。

要約(オリジナル)

Large Language Models (LLMs) deliver powerful AI capabilities but face deployment challenges due to high resource costs and latency, whereas Small Language Models (SLMs) offer efficiency and deployability at the cost of reduced performance. Collaboration between LLMs and SLMs emerges as a crucial paradigm to synergistically balance these trade-offs, enabling advanced AI applications, especially on resource-constrained edge devices. This survey provides a comprehensive overview of LLM-SLM collaboration, detailing various interaction mechanisms (pipeline, routing, auxiliary, distillation, fusion), key enabling technologies, and diverse application scenarios driven by on-device needs like low latency, privacy, personalization, and offline operation. While highlighting the significant potential for creating more efficient, adaptable, and accessible AI, we also discuss persistent challenges including system overhead, inter-model consistency, robust task allocation, evaluation complexity, and security/privacy concerns. Future directions point towards more intelligent adaptive frameworks, deeper model fusion, and expansion into multimodal and embodied AI, positioning LLM-SLM collaboration as a key driver for the next generation of practical and ubiquitous artificial intelligence.

arxiv情報

著者 Yi Chen,JiaHao Zhao,HaoHao Han
発行日 2025-05-12 11:48:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Survey on Collaborative Mechanisms Between Large and Small Language Models はコメントを受け付けていません

Translating the Grievance Dictionary: a psychometric evaluation of Dutch, German, and Italian versions

要約

このペーパーでは、暴力的、脅迫的、または苦情処理されたテキストの分析のための心理言語学的辞書である苦情辞書の3つの翻訳を紹介して評価します。
英語を超えた言語におけるこれらのテーマの関連性を考慮して、私たちはオランダ語、ドイツ語、イタリア語に苦情辞書を翻訳しました。
人間の注釈によって補足された自動化された翻訳のプロセスについて説明します。
辞書カテゴリの内部信頼性やLIWC辞書との相関など、心理測定分析が実行されます。
オランダとドイツの翻訳は元の英語版と同様に機能しますが、イタリア語の辞書ではいくつかのカテゴリの信頼性が低いことが示されています。
最後に、辞書のさらなる検証と適用、および同様のアプローチに従って将来の辞書翻訳について提案します。

要約(オリジナル)

This paper introduces and evaluates three translations of the Grievance Dictionary, a psycholinguistic dictionary for the analysis of violent, threatening or grievance-fuelled texts. Considering the relevance of these themes in languages beyond English, we translated the Grievance Dictionary to Dutch, German, and Italian. We describe the process of automated translation supplemented by human annotation. Psychometric analyses are performed, including internal reliability of dictionary categories and correlations with the LIWC dictionary. The Dutch and German translations perform similarly to the original English version, whereas the Italian dictionary shows low reliability for some categories. Finally, we make suggestions for further validation and application of the dictionary, as well as for future dictionary translations following a similar approach.

arxiv情報

著者 Isabelle van der Vegt,Bennett Kleinberg,Marilu Miotto,Jonas Festor
発行日 2025-05-12 12:27:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Translating the Grievance Dictionary: a psychometric evaluation of Dutch, German, and Italian versions はコメントを受け付けていません

ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution

要約

大規模な言語モデル(LLM)のツール使用機能により、最新の外部情報にアクセスして複雑なタスクを処理できます。
この機能を強化するための現在のアプローチは、主にデータ統合による高度なモデルの蒸留に依存しています。
ただし、この方法には、高度なモデルの使用に関連する大幅なコストが発生し、多くの場合、高度なモデルとターゲットモデルの間の知識範囲の高い矛盾が導かれるデータ互換性の問題が発生します。
これらの課題に対処するために、ツール学習のための自己改善フレームワークであるToolace-Devを提案します。
まず、ツール学習目標を分解して、基本的なツール作成とツール使用能力を高めるサブタスクに分類します。
次に、軽量モデルが自己改善を可能にし、高度なLLMSへの依存を減らす自己進化パラダイムを導入します。
広範な実験では、さまざまなスケールとアーキテクチャのモデル全体でアプローチの有効性を検証します。

要約(オリジナル)

The tool-using capability of large language models (LLMs) enables them to access up-to-date external information and handle complex tasks. Current approaches to enhancing this capability primarily rely on distilling advanced models by data synthesis. However, this method incurs significant costs associated with advanced model usage and often results in data compatibility issues, led by the high discrepancy in the knowledge scope between the advanced model and the target model. To address these challenges, we propose ToolACE-DEV, a self-improving framework for tool learning. First, we decompose the tool-learning objective into sub-tasks that enhance basic tool-making and tool-using abilities. Then, we introduce a self-evolving paradigm that allows lightweight models to self-improve, reducing reliance on advanced LLMs. Extensive experiments validate the effectiveness of our approach across models of varying scales and architectures.

arxiv情報

著者 Xu Huang,Weiwen Liu,Xingshan Zeng,Yuefeng Huang,Xinlong Hao,Yuxian Wang,Yirong Zeng,Chuhan Wu,Yasheng Wang,Ruiming Tang,Defu Lian
発行日 2025-05-12 12:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution はコメントを受け付けていません

Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

要約

大規模な言語モデル(LLM)は、数学的推論で顕著な進歩を遂げていますが、多くの場合、単一パラダイムの推論に依存しており、多様なタスク全体で有効性を制限しています。
相乗的コラボレーションを可能にするために、自然言語推論(NLR)、アルゴリズム推論(AR)、およびシンボリック推論(SR)を統合する複数の推論パラダイムを統合する新しい統一フレームワークであるチェーンオブリーダーシング(COR)を紹介します。
CORは、異なる推論パラダイムを介して複数の潜在的な答えを生成し、それらを首尾一貫した最終ソリューションに合成します。
モデルがこれらのパラダイムを徐々に習得するためのプログレッシブパラダイムトレーニング(PPT)戦略を提案し、Cor-Math-7Bにつながります。
実験結果は、COR-MATH-7Bが現在のSOTAモデルを大幅に上回り、定理でGPT-4Oよりも最大41.0%の絶対改善を達成し、算術タスクの数学ベンチマークでのRLベースの方法よりも15.0%の改善を達成することを示しています。
これらの結果は、モデルの数学的理解能力の向上を示しており、タスク全体でゼロショットの一般化を可能にします。

要約(オリジナル)

Large Language Models (LLMs) have made notable progress in mathematical reasoning, yet often rely on single-paradigm reasoning, limiting their effectiveness across diverse tasks. We introduce Chain-of-Reasoning (CoR), a novel unified framework integrating multiple reasoning paradigms–Natural Language Reasoning (NLR), Algorithmic Reasoning (AR), and Symbolic Reasoning (SR)–to enable synergistic collaboration. CoR generates multiple potential answers via different reasoning paradigms and synthesizes them into a coherent final solution. We propose a Progressive Paradigm Training (PPT) strategy for models to progressively master these paradigms, leading to CoR-Math-7B. Experimental results demonstrate that CoR-Math-7B significantly outperforms current SOTA models, achieving up to a 41.0% absolute improvement over GPT-4o in theorem proving and a 15.0% improvement over RL-based methods on the MATH benchmark in arithmetic tasks. These results show the enhanced mathematical comprehension ability of our model, enabling zero-shot generalization across tasks.

arxiv情報

著者 Yiyao Yu,Yuxiang Zhang,Dongdong Zhang,Xiao Liang,Hengyuan Zhang,Xingxing Zhang,Mahmoud Khademi,Hany Awadalla,Junjie Wang,Yujiu Yang,Furu Wei
発行日 2025-05-12 13:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective はコメントを受け付けていません

SEReDeEP: Hallucination Detection in Retrieval-Augmented Models via Semantic Entropy and Context-Parameter Fusion

要約

検索された生成(RAG)モデルは、外部情報を内部のパラメトリック知識と統合する際に、幻覚現象に頻繁に遭遇します。
経験的研究は、外部のコンテキスト情報と内部パラメトリック知識との不均衡が幻覚生成の主要な要因であることを示しています。
既存の幻覚検出方法論は、主に外部または内部のメカニズムを単独で強調し、それによって相乗効果を見落としています。
最近提案されたRedeepフレームワークは、これらのデュアルメカニズムを切り離し、幻覚への2つの重要な貢献者を特定します。フィードフォワードネットワーク(FFN)でエンコードされたパラメトリック知識への過度の依存と、注意メカニズムによる外部情報の利用不足(特にコピーヘッド)。
幻覚を検出するためにこれらの要因を定量的に評価し、FFNの寄与を動的に調節し、頭をコピーして発生を減衰させます。
それにもかかわらず、ロジットレベルの不確実性の推定または言語レベルの自己整合性評価では、モデル応答のセマンティックディメンションに不十分に対処し、RAG実装における一貫性のない幻覚評価に対処するために、ロジットレベルの不確実性の推定または言語レベルの自己整合性評価で、再lepやその他の多くの幻覚検出アプローチが採用されています。
Redeepの基礎に基づいて、このペーパーでは、訓練された線形プローブを介してキャプチャされたセマンティックエントロピーを介して計算プロセスを強化するSeredeepを紹介し、それにより、グラウンドトゥルース評価をより正確に反映する幻覚評価を実現します。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) models frequently encounter hallucination phenomena when integrating external information with internal parametric knowledge. Empirical studies demonstrate that the disequilibrium between external contextual information and internal parametric knowledge constitutes a primary factor in hallucination generation. Existing hallucination detection methodologies predominantly emphasize either the external or internal mechanism in isolation, thereby overlooking their synergistic effects. The recently proposed ReDeEP framework decouples these dual mechanisms, identifying two critical contributors to hallucinations: excessive reliance on parametric knowledge encoded in feed-forward networks (FFN) and insufficient utilization of external information by attention mechanisms (particularly copy heads). ReDeEP quantitatively assesses these factors to detect hallucinations and dynamically modulates the contributions of FFNs and copy heads to attenuate their occurrence. Nevertheless, ReDeEP and numerous other hallucination detection approaches have been employed at logit-level uncertainty estimation or language-level self-consistency evaluation, inadequately address the semantic dimensions of model responses, resulting in inconsistent hallucination assessments in RAG implementations. Building upon ReDeEP’s foundation, this paper introduces SEReDeEP, which enhances computational processes through semantic entropy captured via trained linear probes, thereby achieving hallucination assessments that more accurately reflect ground truth evaluations.

arxiv情報

著者 Lei Wang
発行日 2025-05-12 13:10:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SEReDeEP: Hallucination Detection in Retrieval-Augmented Models via Semantic Entropy and Context-Parameter Fusion はコメントを受け付けていません