Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets

要約

数学のような複雑なドメインでは、正確性と多様な推論の両方を達成することは、大規模な言語モデル(LLM)にとって困難なままです。
重要なボトルネックは、費用のかかる人間の注釈なしで生成を導くための中間推論の手順を評価することです。
これに対処するために、まず、類似性ベースのデータ増強技術と組み合わせたモンテカルロツリー検索を使用して、自動的にトレーニングされた新しいプロセス報酬モデル(PRM)を導入し、ステップレベルの推論品質を効果的にキャプチャします。
このPRMを活用して、生成フローネットワーク(Gflownets)を適応させ、推論ステップレベルで動作させます。
単一の報酬を最大化することに焦点を当てた従来の強化学習とは異なり、Gflownetsは、PRMで測定されるように、報酬に比例した多様で高品質のソリューションを自然にサンプリングします。
経験的評価は、挑戦的な数学ベンチマークの精度とソリューションの多様性の両方の強力な改善を示しています(例えば、llama3.2-3bの数学レベル5の +2.59%の絶対精度)。
私たちの研究は、LLMでより堅牢で多用途の数学的推論を開発するためのPRM誘導のステップレベルのGflownetsの可能性を示しています。

要約(オリジナル)

Achieving both accuracy and diverse reasoning remains challenging for Large Language Models (LLMs) in complex domains like mathematics. A key bottleneck is evaluating intermediate reasoning steps to guide generation without costly human annotations. To address this, we first introduce a novel Process Reward Model (PRM) trained automatically using Monte Carlo Tree Search coupled with a similarity-based data augmentation technique, effectively capturing step-level reasoning quality. Leveraging this PRM, we then adapt Generative Flow Networks (GFlowNets) to operate at the reasoning step level. Unlike traditional reinforcement learning focused on maximizing a single reward, GFlowNets naturally sample diverse, high-quality solutions proportional to their rewards, as measured by our PRM. Empirical evaluation shows strong improvements in both accuracy and solution diversity on challenging mathematical benchmarks (e.g., +2.59% absolute accuracy on MATH Level 5 for Llama3.2-3B), with effective generalization to unseen datasets (+9.4% absolute on SAT MATH). Our work demonstrates the potential of PRM-guided, step-level GFlowNets for developing more robust and versatile mathematical reasoning in LLMs.

arxiv情報

著者 Adam Younsi,Abdalgader Abubaker,Mohamed El Amine Seddik,Hakim Hacid,Salem Lahlou
発行日 2025-04-28 16:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets はコメントを受け付けていません

Emergence and scaling laws in SGD learning of shallow neural networks

要約

等方性ガウスデータで$ p $ニューロンを使用して2層ニューロンネットワークを学習するためのオンライン確率勾配降下(SGD)の複雑さを研究してください:$ f _*(\ boldsymbol {x})= \ sum_ {p = 1}^p a_p \ cdot
\ sigma(\ langle \ boldsymbol {x}、\ boldsymbol {v} _p^*\ rangle)$、$ \ boldsymbol {x} \ sim \ mathcal {n}(0、\ boldsymbol {i} _d)$、アクティブ化
$ \ sigma:\ mathbb {r} \ to \ mathbb {r} $は、情報指数$ k _*> 2 $(エルミテ拡張の最低度として定義されています)、$ \ {\ boldsymbol {v}^*_ _ p \} _ {p] {p]
オルソーマル信号方向であり、非陰性の第2層係数は$ \ sum_ {p} a_p^2 = 1 $を満たします。
私たちは、挑戦的な「広範な幅」体制$ p \ gg 1 $に焦点を当て、第二層の分岐条件数を許可します。
学生2層ネットワークのトレーニングのためのSGDダイナミクスの正確な分析を提供して、平均四角誤差(MSE)目的を最小限に抑え、各信号方向を回復するための鋭い遷移時間を明示的に識別します。
パワーローの設定では、トレーニングサンプルの数とSGDステップの数、および学生ニューラルネットワークのパラメーターの数に関して、MSE損失のスケーリング法の指数を特徴付けます。
私たちの分析には、個々の教師ニューロンの学習が急激な遷移を示す一方で、異なるタイムスケールでの$ p \ gg 1 $の緊急学習曲線の並置は、累積目的でスムーズなスケーリング法につながることを伴います。

要約(オリジナル)

We study the complexity of online stochastic gradient descent (SGD) for learning a two-layer neural network with $P$ neurons on isotropic Gaussian data: $f_*(\boldsymbol{x}) = \sum_{p=1}^P a_p\cdot \sigma(\langle\boldsymbol{x},\boldsymbol{v}_p^*\rangle)$, $\boldsymbol{x} \sim \mathcal{N}(0,\boldsymbol{I}_d)$, where the activation $\sigma:\mathbb{R}\to\mathbb{R}$ is an even function with information exponent $k_*>2$ (defined as the lowest degree in the Hermite expansion), $\{\boldsymbol{v}^*_p\}_{p\in[P]}\subset \mathbb{R}^d$ are orthonormal signal directions, and the non-negative second-layer coefficients satisfy $\sum_{p} a_p^2=1$. We focus on the challenging “extensive-width” regime $P\gg 1$ and permit diverging condition number in the second-layer, covering as a special case the power-law scaling $a_p\asymp p^{-\beta}$ where $\beta\in\mathbb{R}_{\ge 0}$. We provide a precise analysis of SGD dynamics for the training of a student two-layer network to minimize the mean squared error (MSE) objective, and explicitly identify sharp transition times to recover each signal direction. In the power-law setting, we characterize scaling law exponents for the MSE loss with respect to the number of training samples and SGD steps, as well as the number of parameters in the student neural network. Our analysis entails that while the learning of individual teacher neurons exhibits abrupt transitions, the juxtaposition of $P\gg 1$ emergent learning curves at different timescales leads to a smooth scaling law in the cumulative objective.

arxiv情報

著者 Yunwei Ren,Eshaan Nichani,Denny Wu,Jason D. Lee
発行日 2025-04-28 16:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Emergence and scaling laws in SGD learning of shallow neural networks はコメントを受け付けていません

Graph Neural Network Prediction of Nonlinear Optical Properties

要約

2番目の高調波生成(SHG)を介してレーザーを生成するための非線形光学(NLO)材料は、今日のテクノロジーで非常に求められています。
ただし、実験方法と第一原理の計算の両方の時間と費用のかかる性質のため、かなりのSHGで新しい素材を発見することは困難です。
この研究では、Atomistic Line Graph Neural Network(Alignn)を使用してNLO特性を予測する深い学習アプローチを提示します。
新しい光電子材料ディスカバリー(NOEMD)データベースからのデータの調達と、Kurtz-Perry(KP)係数を主要なターゲットとして使用して、非線形光学応答を正​​確に推定できる堅牢なモデルを開発しました。
我々の結果は、モデルが最大午後1時/Vまでの許容された絶対誤差で82.5%の精度を達成し、0.5を超えない相対誤差を達成することを示しています。
この作業は、目的の特性を持つ高度な光学材料の発見と設計を加速する深い学習の可能性を強調しています。

要約(オリジナル)

Nonlinear optical (NLO) materials for generating lasers via second harmonic generation (SHG) are highly sought in today’s technology. However, discovering novel materials with considerable SHG is challenging due to the time-consuming and costly nature of both experimental methods and first-principles calculations. In this study, we present a deep learning approach using the Atomistic Line Graph Neural Network (ALIGNN) to predict NLO properties. Sourcing data from the Novel Opto-Electronic Materials Discovery (NOEMD) database and using the Kurtz-Perry (KP) coefficient as the key target, we developed a robust model capable of accurately estimating nonlinear optical responses. Our results demonstrate that the model achieves 82.5% accuracy at a tolerated absolute error up to 1 pm/V and relative error not exceeding 0.5. This work highlights the potential of deep learning in accelerating the discovery and design of advanced optical materials with desired properties.

arxiv情報

著者 Yomn Alkabakibi,Congwei Xie,Artem R. Oganov
発行日 2025-04-28 17:03:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.optics | Graph Neural Network Prediction of Nonlinear Optical Properties はコメントを受け付けていません

A Probabilistic Neuro-symbolic Layer for Algebraic Constraint Satisfaction

要約

安全性が批判的なアプリケーションでは、連続環境での制約の満足度を保証することが重要です。たとえば、自律剤が障害物に衝突したり、オフロードになったりしないでください。
ニューラルモデルは、特に複雑な代数関係を伴う場合、これらの制約の存在下で苦労しています。
これに対処するために、連続変数に対する非凸代数の制約の満足度を保証する微分可能な確率的層を導入します。
この確率的代数層(PAL)は、任意のニューラルアーキテクチャにシームレスに接続され、近似を必要とせずに最尤で訓練することができます。
PALは、多項式によってパラメーター化された、線形不平等の接続詞と分布をめぐる分布を定義します。
この定式化により、シンボリック統合を介して効率的かつ正確な繰り込みを可能にします。これは、異なるデータポイントで償却され、GPUに簡単に並列化できます。
PALと統合スキームを、代数的制約統合のための多くのベンチマークおよび実際の軌跡データで紹介します。

要約(オリジナル)

In safety-critical applications, guaranteeing the satisfaction of constraints over continuous environments is crucial, e.g., an autonomous agent should never crash into obstacles or go off-road. Neural models struggle in the presence of these constraints, especially when they involve intricate algebraic relationships. To address this, we introduce a differentiable probabilistic layer that guarantees the satisfaction of non-convex algebraic constraints over continuous variables. This probabilistic algebraic layer (PAL) can be seamlessly plugged into any neural architecture and trained via maximum likelihood without requiring approximations. PAL defines a distribution over conjunctions and disjunctions of linear inequalities, parameterized by polynomials. This formulation enables efficient and exact renormalization via symbolic integration, which can be amortized across different data points and easily parallelized on a GPU. We showcase PAL and our integration scheme on a number of benchmarks for algebraic constraint integration and on real-world trajectory data.

arxiv情報

著者 Leander Kurscheidt,Paolo Morettin,Roberto Sebastiani,Andrea Passerini,Antonio Vergari
発行日 2025-04-28 17:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Probabilistic Neuro-symbolic Layer for Algebraic Constraint Satisfaction はコメントを受け付けていません

Socially-Aware Autonomous Driving: Inferring Yielding Intentions for Safer Interactions

要約

自律運転技術の出現以来、過去10年間で急速に進歩しています。
自動運転車(AV)が道路上の人間駆動車(HV)とすぐに共存する可能性がますます増えています。
現在、特にAVSが車線の変更をナビゲートし、周囲のHVとの対話をしている場合、安全性と信頼できる意思決定は依然として重要な課題です。
したがって、周囲のHVの意図の正確な推定は、AVSがより信頼性が高く安全な車線変更の意思決定を行うのに役立ちます。
これには、現在の行動を理解するだけでなく、直接的なコミュニケーションなしで将来の動きを予測することも含まれます。
ただし、周囲のHVの合格と降伏の意図を区別することは依然としてあいまいです。
課題に対処するために、Deep Renforcement Learning(DRL)アルゴリズムを採用した意思決定フレームワークと相まって、指示された非環式グラフ(DAG)に根ざした社会的意図推定アルゴリズムを提案します。
メソッドのパフォーマンスを評価するために、提案されたフレームワークを、シミュレートされた環境内の車線変更シナリオでテストおよび適用できます。
さらに、実験結果は、私たちのアプローチがAVSが道路で安全かつ効率的にレーンの変化をナビゲートする能力をどのように強化するかを示しています。

要約(オリジナル)

Since the emergence of autonomous driving technology, it has advanced rapidly over the past decade. It is becoming increasingly likely that autonomous vehicles (AVs) would soon coexist with human-driven vehicles (HVs) on the roads. Currently, safety and reliable decision-making remain significant challenges, particularly when AVs are navigating lane changes and interacting with surrounding HVs. Therefore, precise estimation of the intentions of surrounding HVs can assist AVs in making more reliable and safe lane change decision-making. This involves not only understanding their current behaviors but also predicting their future motions without any direct communication. However, distinguishing between the passing and yielding intentions of surrounding HVs still remains ambiguous. To address the challenge, we propose a social intention estimation algorithm rooted in Directed Acyclic Graph (DAG), coupled with a decision-making framework employing Deep Reinforcement Learning (DRL) algorithms. To evaluate the method’s performance, the proposed framework can be tested and applied in a lane-changing scenario within a simulated environment. Furthermore, the experiment results demonstrate how our approach enhances the ability of AVs to navigate lane changes safely and efficiently on roads.

arxiv情報

著者 Jing Wang,Yan Jin,Hamid Taghavifar,Fei Ding,Chongfeng Wei
発行日 2025-04-28 17:24:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Socially-Aware Autonomous Driving: Inferring Yielding Intentions for Safer Interactions はコメントを受け付けていません

Curiosity Driven Exploration to Optimize Structure-Property Learning in Microscopy

要約

材料における構造とプロパティの相関を迅速に決定することは、基本的なメカニズムをよりよく理解し、材料の設計を大幅に支援する上で重要な課題です。
顕微鏡では、イメージングデータは局所構造の直接測定を提供し、分光測定は関連する機能的プロパティ情報を提供します。
ディープカーネルのアクティブ学習アプローチは、顕微鏡実験の局所構造を機能的特性に迅速にマッピングするために利用されていますが、多次元および相関の出力スペースには計算高価です。
ここでは、エラー予測のためにディープラーニングベースの代理モデルを利用して、未開の構造とプロパティの関係を持つ領域を積極的にサンプリングする代替の軽量の好奇心アルゴリズムを提示します。
アルゴリズムは、構造からプロパティを予測するためのランダムサンプリングよりも優れていることを示し、材料科学における構造とプロパティの関係を効率的にマッピングするための便利なツールを提供することを示します。

要約(オリジナル)

Rapidly determining structure-property correlations in materials is an important challenge in better understanding fundamental mechanisms and greatly assists in materials design. In microscopy, imaging data provides a direct measurement of the local structure, while spectroscopic measurements provide relevant functional property information. Deep kernel active learning approaches have been utilized to rapidly map local structure to functional properties in microscopy experiments, but are computationally expensive for multi-dimensional and correlated output spaces. Here, we present an alternative lightweight curiosity algorithm which actively samples regions with unexplored structure-property relations, utilizing a deep-learning based surrogate model for error prediction. We show that the algorithm outperforms random sampling for predicting properties from structures, and provides a convenient tool for efficient mapping of structure-property relationships in materials science.

arxiv情報

著者 Aditya Vatsavai,Ganesh Narasimha,Yongtao Liu,Jan-Chi Yang,Hiroshu Funakubo,Maxim Ziatdinov,Rama Vasudevan
発行日 2025-04-28 17:31:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG | Curiosity Driven Exploration to Optimize Structure-Property Learning in Microscopy はコメントを受け付けていません

Quantum Kernel Methods under Scrutiny: A Benchmarking Study

要約

量子機械学習の分野でのカーネル理論の侵入以来、量子カーネル法(QKM)は、有望なアプリケーションの調査と興味をそそる研究洞察の提供の両方に関して、増加している注意を払っています。
これらのメソッドのベンチマークは、堅牢な洞察を得て、それらの実用的な有用性を理解するために重要です。
この作業では、忠実度の量子カーネル(FQKS)と予測された量子カーネル(PQK)に基づいてQKMを調べる包括的な大規模研究を提示します。
私たちの調査には、5つのデータセットファミリと64のデータセットの分類タスクと回帰タスクの両方が含まれ、FQKSおよびPQKS量子サポートベクターマシンとカーネルリッジ回帰の使用を体系的に比較します。
これにより、最先端のハイパーパラメーター検索を使用してトレーニングおよび最適化された20,000を超えるモデルが実現し、堅牢で包括的な洞察を確保しました。
モデルのパフォーマンススコアに関するハイパーパラメーターの重要性を掘り下げ、厳密な相関分析を通じて調査結果をサポートします。
さらに、PQKの設計の自由に対処する詳細な分析を提供し、学習を担当する根本的な原則を調査します。
私たちの目標は、特定のタスクに最適なモデルを特定するのではなく、効果的なQKMにつながり、普遍的なパターンを明らかにするメカニズムを明らかにすることです。

要約(オリジナル)

Since the entry of kernel theory in the field of quantum machine learning, quantum kernel methods (QKMs) have gained increasing attention with regard to both probing promising applications and delivering intriguing research insights. Benchmarking these methods is crucial to gain robust insights and to understand their practical utility. In this work, we present a comprehensive large-scale study examining QKMs based on fidelity quantum kernels (FQKs) and projected quantum kernels (PQKs) across a manifold of design choices. Our investigation encompasses both classification and regression tasks for five dataset families and 64 datasets, systematically comparing the use of FQKs and PQKs quantum support vector machines and kernel ridge regression. This resulted in over 20,000 models that were trained and optimized using a state-of-the-art hyperparameter search to ensure robust and comprehensive insights. We delve into the importance of hyperparameters on model performance scores and support our findings through rigorous correlation analyses. Additionally, we provide an in-depth analysis addressing the design freedom of PQKs and explore the underlying principles responsible for learning. Our goal is not to identify the best-performing model for a specific task but to uncover the mechanisms that lead to effective QKMs and reveal universal patterns.

arxiv情報

著者 Jan Schnabel,Marco Roth
発行日 2025-04-28 17:31:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph | Quantum Kernel Methods under Scrutiny: A Benchmarking Study はコメントを受け付けていません

Application of Machine Learning and Convex Limiting to Subgrid Flux Modeling in the Shallow-Water Equations

要約

1次元の浅い水方程式のフラックス制限された有限体積法のコンテキストで、プロパティプレゼントサブグリッドスケールモデリングの機械学習とフラックス制限の組み合わせを提案します。
保守的なターゲットスキームの数値フラックスは、ニューラルネットワークを使用してサブグリッドスケールコンポーネントをパラメーター化するための単調な微細グリッド離散化の粗いメッシュ平均に適合します。
陽性の保存と局所的な最大原則の妥当性を確保するために、同等の変動フォームの中間状態を制約するフラックスリミッターを使用して、凸状の許容セットにとどまります。
私たちの数値研究の結果は、機械学習の提案された組み合わせとモノリシック凸の制限が、ネットワークが訓練されていないシナリオでも意味のある閉鎖を生成することを確認しています。

要約(オリジナル)

We propose a combination of machine learning and flux limiting for property-preserving subgrid scale modeling in the context of flux-limited finite volume methods for the one-dimensional shallow-water equations. The numerical fluxes of a conservative target scheme are fitted to the coarse-mesh averages of a monotone fine-grid discretization using a neural network to parametrize the subgrid scale components. To ensure positivity preservation and the validity of local maximum principles, we use a flux limiter that constrains the intermediate states of an equivalent fluctuation form to stay in a convex admissible set. The results of our numerical studies confirm that the proposed combination of machine learning with monolithic convex limiting produces meaningful closures even in scenarios for which the network was not trained.

arxiv情報

著者 Ilya Timofeyev,Alexey Schwarzmann,Dmitri Kuzmin
発行日 2025-04-28 17:50:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 65M99, cs.LG, physics.ao-ph, physics.comp-ph, physics.flu-dyn, stat.ML | Application of Machine Learning and Convex Limiting to Subgrid Flux Modeling in the Shallow-Water Equations はコメントを受け付けていません

Knowledge-Augmented Multimodal Clinical Rationale Generation for Disease Diagnosis with Small Language Models

要約

解釈は疾患の診断にとって重要ですが、既存のモデルは、予測精度と人間に理解できる理論的根拠のバランスをとるのに苦労しています。
大規模な言語モデル(LLM)は強力な推論能力を提供しますが、それらの臨床使用は、高い計算コストと制限されたマルチモーダル推論能力によって制限されます。
小言語モデル(SLM)は効率的ですが、マルチモーダル医療データを統合するための高度な推論がありません。
さらに、LLMSとSLMの両方が、信頼できる推論のためのドメイン知識が不足していません。
したがって、Clinragenを提案し、信頼できるマルチモーダルの根拠生成のための理論的蒸留とドメイン知識インジェクションを介してLLM由来の推論能力を活用することによりSLMを強化します。
主要な革新には、SLMにLLMと比較可能なミトリモーダル推論能力を装備する連続的な根拠の蒸留フレームワークと、同じエンコーディング空間の時系列とテキストデータからマルチモーダル表現を共同で統合し、信頼できる領域の世代のためにドメインの知識を引き起こしながら自然に解釈します。
実際の医療データセットでの実験は、Clinragenが疾患の診断と根拠の生成において最先端のパフォーマンスを達成し、LLM駆動型の推論と解釈可能性の改善のための知識の増強を組み合わせることの有効性を実証することを示しています。

要約(オリジナル)

Interpretation is critical for disease diagnosis, but existing models struggle to balance predictive accuracy with human-understandable rationales. While large language models (LLMs) offer strong reasoning abilities, their clinical use is limited by high computational costs and restricted multimodal reasoning ability. Small language models (SLMs) are efficient but lack advanced reasoning for integrating multimodal medical data. In addition, both LLMs and SLMs lack of domain knowledge for trustworthy reasoning. Therefore, we propose ClinRaGen, enhancing SLMs by leveraging LLM-derived reasoning ability via rationale distillation and domain knowledge injection for trustworthy multimodal rationale generation. Key innovations include a sequential rationale distillation framework that equips SLMs with LLM-comparable mutlimodal reasoning abilities, and a knowledge-augmented attention mechanism that jointly unifies multimodal representation from time series and textual data in a same encoding space, enabling it naturally interpreted by SLMs while incorporating domain knowledge for reliable rationale generation. Experiments on real-world medical datasets show that ClinRaGen achieves state-of-the-art performance in disease diagnosis and rationale generation, demonstrating the effectiveness of combining LLM-driven reasoning with knowledge augmentation for improved interpretability.

arxiv情報

著者 Shuai Niu,Jing Ma,Hongzhan Lin,Liang Bai,Zhihua Wang,Yida Xu,Yunya Song,Xian Yang
発行日 2025-04-28 03:28:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | Knowledge-Augmented Multimodal Clinical Rationale Generation for Disease Diagnosis with Small Language Models はコメントを受け付けていません

Towards Long Context Hallucination Detection

要約

大規模な言語モデル(LLM)は、さまざまなタスクで顕著なパフォーマンスを実証しています。
しかし、それらは文脈的な幻覚を起こしやすく、特定の文脈と矛盾していない、または矛盾する情報を生成します。
多くの研究では、LLMSの文脈的幻覚を調査していますが、それらに対処することは長期にわたる問題のままです。
この作業では、長いコンテキストの幻覚検出のために特別に設計されたデータセットを構築することにより、この問題の解決に向けた最初の一歩を踏み出します。
さらに、BERTなどの事前に訓練されたエンコーダーモデルが長いコンテキストを処理し、分解と集約メカニズムを介してコンテキスト幻覚を効果的に検出できるようにする新しいアーキテクチャを提案します。
私たちの実験結果は、提案されたアーキテクチャが、さまざまなメトリックにわたってLLMベースのモデルと同様に、同様のサイズの以前のモデルを大幅に上回ると同時に、実質的により速い推論を提供することを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable performance across various tasks. However, they are prone to contextual hallucination, generating information that is either unsubstantiated or contradictory to the given context. Although many studies have investigated contextual hallucinations in LLMs, addressing them in long-context inputs remains an open problem. In this work, we take an initial step toward solving this problem by constructing a dataset specifically designed for long-context hallucination detection. Furthermore, we propose a novel architecture that enables pre-trained encoder models, such as BERT, to process long contexts and effectively detect contextual hallucinations through a decomposition and aggregation mechanism. Our experimental results show that the proposed architecture significantly outperforms previous models of similar size as well as LLM-based models across various metrics, while providing substantially faster inference.

arxiv情報

著者 Siyi Liu,Kishaloy Halder,Zheng Qi,Wei Xiao,Nikolaos Pappas,Phu Mon Htut,Neha Anna John,Yassine Benajiba,Dan Roth
発行日 2025-04-28 03:47:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Long Context Hallucination Detection はコメントを受け付けていません