Stochastic interior-point methods for smooth conic optimization with applications

要約

円錐最適化は、多くの機械学習(ML)の問題で重要な役割を果たします。
ただし、一般的なコニック最適化の確率的アルゴリズムが未発達のままであるため、大規模なデータセットでのコニック制約ML問題の実用的なアルゴリズムは、特定のユースケースに限定されることがよくあります。
このギャップを埋めるために、一般的なコニック最適化のための確率的インテリアポイント法(SIPM)フレームワークを導入し、4つの新しいSIPMバリアントを明確な確率勾配推定器を活用します。
軽度の仮定の下で、提案されたSIPMの反復複雑さを確立します。これは、ポリロガリズム因子まで、確率的な制約のない最適化で最もよく知られている結果と一致します。
最後に、堅牢な線形回帰、マルチタスク関係学習、およびクラスタリングデータストリームに関する数値実験は、アプローチの有効性と効率性を示しています。

要約(オリジナル)

Conic optimization plays a crucial role in many machine learning (ML) problems. However, practical algorithms for conic constrained ML problems with large datasets are often limited to specific use cases, as stochastic algorithms for general conic optimization remain underdeveloped. To fill this gap, we introduce a stochastic interior-point method (SIPM) framework for general conic optimization, along with four novel SIPM variants leveraging distinct stochastic gradient estimators. Under mild assumptions, we establish the iteration complexity of our proposed SIPMs, which, up to a polylogarithmic factor, match the best-known results in stochastic unconstrained optimization. Finally, our numerical experiments on robust linear regression, multi-task relationship learning, and clustering data streams demonstrate the effectiveness and efficiency of our approach.

arxiv情報

著者 Chuan He,Zhanwang Deng
発行日 2025-06-02 14:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 90C25, 90C30, cs.AI, cs.LG, math.OC | Stochastic interior-point methods for smooth conic optimization with applications はコメントを受け付けていません

Causally Reliable Concept Bottleneck Models

要約

概念ベースのモデルは、人間が解釈可能な変数を介して動作する推論プロセスを制約し、説明可能性と人間の相互作用を促進する深い学習の新たなパラダイムです。
ただし、これらのアーキテクチャは、一般的な不透明ニューラルモデルと同等に、データに表されるターゲット現象の根底にある真の因果メカニズムを説明できません。
これにより、因果的推論のタスクをサポートする能力が妨げられ、分散の一般化を制限し、公平性の制約の実装を妨げます。
これらの問題を克服するために、現実世界の因果メカニズムのモデルに従って構成された概念のボトルネックを通じて推論を強制する概念ベースのアーキテクチャのクラスである因果的に信頼できる概念ボトルネックモデル(c $^2 $ bms)を提案します。
また、観察データと非構造化された背景知識(科学文献など)からこの構造を自動的に学習するためのパイプラインを紹介します。
実験的証拠は、C $^2 $ bmsがより解釈可能で因果関係があり、介入に対する反応性を改善することを示唆しています。
標準的な不透明およびコンセプトベースのモデルは、その精度を維持します。

要約(オリジナル)

Concept-based models are an emerging paradigm in deep learning that constrains the inference process to operate through human-interpretable variables, facilitating explainability and human interaction. However, these architectures, on par with popular opaque neural models, fail to account for the true causal mechanisms underlying the target phenomena represented in the data. This hampers their ability to support causal reasoning tasks, limits out-of-distribution generalization, and hinders the implementation of fairness constraints. To overcome these issues, we propose Causally reliable Concept Bottleneck Models (C$^2$BMs), a class of concept-based architectures that enforce reasoning through a bottleneck of concepts structured according to a model of the real-world causal mechanisms. We also introduce a pipeline to automatically learn this structure from observational data and unstructured background knowledge (e.g., scientific literature). Experimental evidence suggests that C$^2$BMs are more interpretable, causally reliable, and improve responsiveness to interventions w.r.t. standard opaque and concept-based models, while maintaining their accuracy.

arxiv情報

著者 Giovanni De Felice,Arianna Casanova Flores,Francesco De Santis,Silvia Santini,Johannes Schneider,Pietro Barbiero,Alberto Termine
発行日 2025-06-02 15:01:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Causally Reliable Concept Bottleneck Models はコメントを受け付けていません

How well do LLMs reason over tabular data, really?

要約

大規模な言語モデル(LLM)は自然言語のタスクに優れていますが、表形式データに対する推論能力についてはあまり知られていません。
以前の分析では、表形式クエリでのLLMの現実的なパフォーマンスを不十分に反映する評価戦略を考案します。
さらに、LLMSの堅牢性について、表形式入力の現実的な変動に対する理解は限られています。
したがって、私たちは次のように尋ねます:LLMSが表形式データを概して推論することができますか?そして、2つの質問に焦点を当てることができます1)表形式のLLMの表形式の推論能力は、表形式入力の実際の特性に対して堅牢に堅牢です。
最近の表の推論ベンチマークに基づいて、最初にその多肢選択迅速な評価戦略の表面欠点と、SacrebleuやBert-Soreなどの一般的に使用されるフリーフォームテキストメトリックを使用します。
LLM-as-a-a-a-judgeの手順により、より信頼性の高いパフォーマンスの洞察が得られ、LLMSの表形式の推論パフォーマンスの重大な赤字が明らかになることを示します。
次に、実際の3つの一般的な特性を反映した表形式の入力を拡張します。1)欠損値、2)重複したエンティティ、3)構造変動。
実験は、汎用LLMの表形式の推論能力がこれらの変動に苦しんでおり、現実的な表面入力に対する堅牢性を改善することの重要性を強調していることを示しています。

要約(オリジナル)

Large Language Models (LLMs) excel in natural language tasks, but less is known about their reasoning capabilities over tabular data. Prior analyses devise evaluation strategies that poorly reflect an LLM’s realistic performance on tabular queries. Moreover, we have a limited understanding of the robustness of LLMs towards realistic variations in tabular inputs. Therefore, we ask: Can general-purpose LLMs reason over tabular data, really?, and focus on two questions 1) are tabular reasoning capabilities of general-purpose LLMs robust to real-world characteristics of tabular inputs, and 2) how can we realistically evaluate an LLM’s performance on analytical tabular queries? Building on a recent tabular reasoning benchmark, we first surface shortcomings of its multiple-choice prompt evaluation strategy, as well as commonly used free-form text metrics such as SacreBleu and BERT-score. We show that an LLM-as-a-judge procedure yields more reliable performance insights and unveil a significant deficit in tabular reasoning performance of LLMs. We then extend the tabular inputs reflecting three common characteristics in practice: 1) missing values, 2) duplicate entities, and 3) structural variations. Experiments show that the tabular reasoning capabilities of general-purpose LLMs suffer from these variations, stressing the importance of improving their robustness for realistic tabular inputs.

arxiv情報

著者 Cornelius Wolff,Madelon Hulsebos
発行日 2025-06-02 15:39:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | How well do LLMs reason over tabular data, really? はコメントを受け付けていません

HoH: A Dynamic Benchmark for Evaluating the Impact of Outdated Information on Retrieval-Augmented Generation

要約

検索された生成(RAG)は、大規模な言語モデル(LLM)の知識の外部問題に対処するための効果的なアプローチとして浮上していますが、それは依然として重要な課題に直面しています。知識ベースの時代遅れの情報の有病率です。
現在の研究は主に最新の情報を組み込むことに焦点を当てていますが、検索ソースに共存する時代遅れの情報の影響は不十分に対処されたままです。
このギャップを埋めるために、ragに対する時代遅れの情報の影響を評価するために特別に設計された最初のベンチマークであるHOHを紹介します。
当社のベンチマークは、LLMパイプラインと組み合わせたトークンレベルのDiffアルゴリズムを活用して、実際の事実における時間的知識の進化を正確にキャプチャする大規模なQAデータセットを効率的に作成します。
包括的な実験を通じて、時代遅れの情報が2つの重要な方法でRAGパフォーマンスを大幅に低下させることを明らかにします。(1)モデルを正しい情報からそらすことで応答の精度を大幅に削減し、(2)現在の情報が利用可能であっても、潜在的に有害な出力を生成するためにモデルを誤解させることができます。
現在のRAGアプローチは、時代遅れの情報を処理する際に、検索の側面と生成の両方の側面に苦労しています。
これらの調査結果は、ぼろぼろの時間的課題に対処するための革新的なソリューションの緊急の必要性を強調しています。
コードとデータは、https://github.com/0russwest0/hohで入手できます。

要約(オリジナル)

While Retrieval-Augmented Generation (RAG) has emerged as an effective approach for addressing the knowledge outdating problem in Large Language Models (LLMs), it still faces a critical challenge: the prevalence of outdated information in knowledge bases. Current research primarily focuses on incorporating up-to-date information, yet the impact of outdated information coexisting in retrieval sources remains inadequately addressed. To bridge this gap, we introduce HoH, the first benchmark specifically designed to evaluate the impact of outdated information on RAG. Our benchmark leverages token-level diff algorithms combined with LLM pipelines to efficiently create a large-scale QA dataset that accurately captures the evolution of temporal knowledge in real-world facts. Through comprehensive experiments, we reveal that outdated information significantly degrades RAG performance in two critical ways: (1) it substantially reduces response accuracy by distracting models from correct information, and (2) it can mislead models into generating potentially harmful outputs, even when current information is available. Current RAG approaches struggle with both retrieval and generation aspects when handling outdated information. These findings highlight the urgent need for innovative solutions to address the temporal challenges in RAG. Our code and data are available at: https://github.com/0russwest0/HoH.

arxiv情報

著者 Jie Ouyang,Tingyue Pan,Mingyue Cheng,Ruiran Yan,Yucong Luo,Jiaying Lin,Qi Liu
発行日 2025-06-02 15:39:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | HoH: A Dynamic Benchmark for Evaluating the Impact of Outdated Information on Retrieval-Augmented Generation はコメントを受け付けていません

Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values

要約

大規模な言語モデル(LLM)が顕著なブレークスルーを達成するにつれて、人間との価値を合わせることは、責任ある開発とカスタマイズされたアプリケーションにとって不可欠になりました。
ただし、3つの望ましい目標を達成するLLMS値の評価はまだありません。
(1)価値の明確化:LLMの根本的な値を正確かつ包括的に明確にすることを期待していますが、現在の評価は、バイアスや毒性などの安全リスクに狭く焦点を当てています。
(2)評価の妥当性:既存の静的、オープンソースのベンチマークは、データ汚染が発生しやすく、LLMSが進化するにつれてすぐに時代遅れになります。
さらに、これらの識別評価は、LLMSの行動的適合性に対する有効な評価ではなく、値に関するLLMの知識を明らかにします。
(3)価値多元主義:個人や文化にわたる人間の価値の多元的な性質は、LLMS値のアライメントを測定する際にほとんど無視されます。
これらの課題に対処するために、3つの対応して設計されたモジュールを使用して、バリューコンパスベンチマークを提示します。
(i)動機的に異なる\ textit {基本値の評価を根拠に基づいて、llmsの根本的な値を全体的な見方から明確にします。
(ii)A \ textit {リアルなシナリオでの行動からのLLMSおよび直接的な価値認識のための適応テスト項目を使用した生成的進化評価フレームワークを適用します。
(iii)複数の次元にわたって加重合計として特定の値とLLMSアラインメントを定量化するメトリックを提案し、重みは多元的値によって決定されます。

要約(オリジナル)

As Large Language Models (LLMs) achieve remarkable breakthroughs, aligning their values with humans has become imperative for their responsible development and customized applications. However, there still lack evaluations of LLMs values that fulfill three desirable goals. (1) Value Clarification: We expect to clarify the underlying values of LLMs precisely and comprehensively, while current evaluations focus narrowly on safety risks such as bias and toxicity. (2) Evaluation Validity: Existing static, open-source benchmarks are prone to data contamination and quickly become obsolete as LLMs evolve. Additionally, these discriminative evaluations uncover LLMs’ knowledge about values, rather than valid assessments of LLMs’ behavioral conformity to values. (3) Value Pluralism: The pluralistic nature of human values across individuals and cultures is largely ignored in measuring LLMs value alignment. To address these challenges, we presents the Value Compass Benchmarks, with three correspondingly designed modules. It (i) grounds the evaluation on motivationally distinct \textit{basic values to clarify LLMs’ underlying values from a holistic view; (ii) applies a \textit{generative evolving evaluation framework with adaptive test items for evolving LLMs and direct value recognition from behaviors in realistic scenarios; (iii) propose a metric that quantifies LLMs alignment with a specific value as a weighted sum over multiple dimensions, with weights determined by pluralistic values.

arxiv情報

著者 Jing Yao,Xiaoyuan Yi,Shitong Duan,Jindong Wang,Yuzhuo Bai,Muhua Huang,Peng Zhang,Tun Lu,Zhicheng Dou,Maosong Sun,Xing Xie
発行日 2025-06-02 15:40:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values はコメントを受け付けていません

A Dual-Directional Context-Aware Test-Time Learning for Text Classification

要約

テキスト分類は、テキストを事前定義されたカテゴリに割り当てます。
従来の方法は、複雑な構造と長距離の依存関係と闘っています。
再発性ニューラルネットワークとトランスモデルを使用した深い学習により、特徴抽出とコンテキスト認識が向上しました。
ただし、これらのモデルは、解釈可能性、効率性、コンテキスト範囲を依然としてトレードオフしています。
動的な双方向のエルマン注意ネットワーク(DBEAN)を提案します。
dbeanは、双方向の時間モデリングと自己触媒を組み合わせています。
重要な入力セグメントを動的に重み付けし、計算効率を維持します。

要約(オリジナル)

Text classification assigns text to predefined categories. Traditional methods struggle with complex structures and long-range dependencies. Deep learning with recurrent neural networks and Transformer models has improved feature extraction and context awareness. However, these models still trade off interpretability, efficiency and contextual range. We propose the Dynamic Bidirectional Elman Attention Network (DBEAN). DBEAN combines bidirectional temporal modeling and self-attention. It dynamically weights critical input segments and preserves computational efficiency.

arxiv情報

著者 Dong Xu,ZhengLin Lai,MengYao Liao,Xueliang Li,Junkai Ji
発行日 2025-06-02 15:47:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Dual-Directional Context-Aware Test-Time Learning for Text Classification はコメントを受け付けていません

(Im)possibility of Automated Hallucination Detection in Large Language Models

要約

自動幻覚検出は可能ですか?
この作業では、大規模な言語モデル(LLM)によって生成された幻覚を自動的に検出する可能性を分析するための理論的枠組みを紹介します。
言語識別のための古典的なゴールドアングルインフレームワークと、クラインバーグとマリナサンによる言語生成への最近の適応に触発されたアルゴリズムは、未知のターゲット言語$ k $(カスタルコレクションから選択)から描かれた例でトレーニングされ、LLMへのアクセスが与えられ、LLMが正しいかどうかを信頼できるかどうかを判断するかどうかを調査します。
まず、幻覚検出と言語識別の古典的なタスクとの等価性を確立します。
幻覚検出方法は言語識別法に変換できることを証明し、逆に、言語識別を解くアルゴリズムは幻覚検出に適合させることができます。
言語識別の固有の難しさを考えると、これは、ターゲット言語の正しい例のみを使用して検出器がトレーニングされている場合、ほとんどの言語コレクションにとって幻覚の検出が基本的に不可能であることを意味します。
第二に、専門家標識フィードバックの使用、つまり、ポジティブな例(正しいステートメント)と否定的な例(明示的に誤ったステートメントとラベル付けされた)の両方で検出器をトレーニングすることは、この結論を劇的に変化させることを示します。
この豊かなトレーニング体制の下では、すべての数えられる言語コレクションで自動化された幻覚検出が可能になります。
これらの結果は、幻覚検出器のトレーニングにおける専門家標識の例の本質的な役割を強調し、信頼性の高いLLM展開に重要であることが証明された人間のフィードバックによる補強学習(RLHF)など、フィードバックベースの方法の理論的サポートを提供します。

要約(オリジナル)

Is automated hallucination detection possible? In this work, we introduce a theoretical framework to analyze the feasibility of automatically detecting hallucinations produced by large language models (LLMs). Inspired by the classical Gold-Angluin framework for language identification and its recent adaptation to language generation by Kleinberg and Mullainathan, we investigate whether an algorithm, trained on examples drawn from an unknown target language $K$ (selected from a countable collection) and given access to an LLM, can reliably determine whether the LLM’s outputs are correct or constitute hallucinations. First, we establish an equivalence between hallucination detection and the classical task of language identification. We prove that any hallucination detection method can be converted into a language identification method, and conversely, algorithms solving language identification can be adapted for hallucination detection. Given the inherent difficulty of language identification, this implies that hallucination detection is fundamentally impossible for most language collections if the detector is trained using only correct examples from the target language. Second, we show that the use of expert-labeled feedback, i.e., training the detector with both positive examples (correct statements) and negative examples (explicitly labeled incorrect statements), dramatically changes this conclusion. Under this enriched training regime, automated hallucination detection becomes possible for all countable language collections. These results highlight the essential role of expert-labeled examples in training hallucination detectors and provide theoretical support for feedback-based methods, such as reinforcement learning with human feedback (RLHF), which have proven critical for reliable LLM deployment.

arxiv情報

著者 Amin Karbasi,Omar Montasser,John Sous,Grigoris Velegkas
発行日 2025-06-02 15:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | (Im)possibility of Automated Hallucination Detection in Large Language Models はコメントを受け付けていません

Estimating LLM Consistency: A User Baseline vs Surrogate Metrics

要約

大規模な言語モデル(LLM)は幻覚を起こしやすく、緊急摂動に敏感であり、しばしば一貫性のないまたは信頼できない生成されたテキストをもたらします。
このような幻覚と脆弱性を軽減するために、さまざまな方法が提案されています。そのうちの1つは、LLM応答の一貫性(応答に対するモデルの自信、または再サンプリング時に同様の応答を生成する可能性)を測定しています。
以前の研究では、一貫性を測定することは、再サンプリングされた応答のプール、または内部状態または応答のロジット内に現れる応答の確率にしばしば依存していました。
しかし、これらのアプローチが、人間がLLM応答の一貫性をどのように認識するかをどの程度よく概算するかはまだ明確ではありません。
ユーザー調査(n = 2,976)を実行しましたが、現在の方法では、通常、LLMの一貫性に対するユーザーの認識を非常によく近似していないことがわかりました。
LLMの一貫性を推定するためのロジットベースのアンサンブル方法を提案し、この方法がLLMの一貫性の人間の評価を推定する上で、最もパフォーマンスのある既存のメトリックのパフォーマンスと一致することを示します。
我々の結果は、人間の評価なしでLLMの一貫性を推定する方法は十分に不完全であり、人間の入力をより広く使用することを提案することを示唆しています。

要約(オリジナル)

Large language models (LLMs) are prone to hallucinations and sensitive to prompt perturbations, often resulting in inconsistent or unreliable generated text. Different methods have been proposed to mitigate such hallucinations and fragility — one of them being measuring the consistency (the model’s confidence in the response, or likelihood of generating a similar response when resampled) of LLM responses. In previous work, measuring consistency often relied on the probability of a response appearing within a pool of resampled responses, or internal states or logits of responses. However, it is not yet clear how well these approaches approximate how humans perceive the consistency of LLM responses. We performed a user study (n=2,976) and found current methods typically do not approximate users’ perceptions of LLM consistency very well. We propose a logit-based ensemble method for estimating LLM consistency, and we show that this method matches the performance of the best-performing existing metric in estimating human ratings of LLM consistency. Our results suggest that methods of estimating LLM consistency without human evaluation are sufficiently imperfect that we suggest evaluation with human input be more broadly used.

arxiv情報

著者 Xiaoyuan Wu,Weiran Lin,Omer Akgul,Lujo Bauer
発行日 2025-06-02 15:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG | Estimating LLM Consistency: A User Baseline vs Surrogate Metrics はコメントを受け付けていません

Improving Transformer World Models for Data-Efficient RL

要約

モデルベースのRLへのアプローチを提示します。これは、挑戦的なCraftaxクラシックベンチマークで新しい最先端のパフォーマンスを実現します。これは、強力な一般化、深い探求、長期的な推論など、エージェントが幅広い一般的な能力を示すことを要求するオープンワールド2Dサバイバルゲームです。
サンプルの効率を改善することを目的とした一連の慎重な設計の選択により、MBRLアルゴリズムは1mの環境ステップのみで69.66%の報酬を達成し、DreamerV3を大幅に上回り、53.2%を達成し、初めて65.0%を超えます。
私たちの方法は、CNNとRNNを組み合わせた新しいポリシーアーキテクチャを使用して、SOTAモデルのないベースラインを構築することから始まります。
次に、標準のMBRLセットアップに3つの改善を追加します:(a)dyna with warmup」。これは、実際のデータと想像上のデータに関するポリシーをトレーニングします(b)画像パッチ上の「最近隣接トークンザー」は、変圧器の世界モデル(TWM)入力を作成するスキームを改善し、(c) ‘Block Teacher Forcing’を作成します。

要約(オリジナル)

We present an approach to model-based RL that achieves a new state of the art performance on the challenging Craftax-classic benchmark, an open-world 2D survival game that requires agents to exhibit a wide range of general abilities — such as strong generalization, deep exploration, and long-term reasoning. With a series of careful design choices aimed at improving sample efficiency, our MBRL algorithm achieves a reward of 69.66% after only 1M environment steps, significantly outperforming DreamerV3, which achieves 53.2%, and, for the first time, exceeds human performance of 65.0%. Our method starts by constructing a SOTA model-free baseline, using a novel policy architecture that combines CNNs and RNNs. We then add three improvements to the standard MBRL setup: (a) ‘Dyna with warmup’, which trains the policy on real and imaginary data, (b) ‘nearest neighbor tokenizer’ on image patches, which improves the scheme to create the transformer world model (TWM) inputs, and (c) ‘block teacher forcing’, which allows the TWM to reason jointly about the future tokens of the next timestep.

arxiv情報

著者 Antoine Dedieu,Joseph Ortiz,Xinghua Lou,Carter Wendelken,Wolfgang Lehrach,J Swaroop Guntupalli,Miguel Lazaro-Gredilla,Kevin Patrick Murphy
発行日 2025-06-02 16:00:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Improving Transformer World Models for Data-Efficient RL はコメントを受け付けていません

Universal Value-Function Uncertainties

要約

価値関数における認識論的不確実性の推定は、効率的な調査、安全な意思決定、オフラインRLなど、強化学習の多くの側面(RL)にとって重要な課題です。
ディープアンサンブルは、値の不確実性を定量化するための堅牢な方法を提供しますが、重要な計算オーバーヘッドが付属しています。
シングルモデルの方法は、計算的に有利ですが、多くの場合、ヒューリスティックに依存しており、通常、近視の不確実性の推定に追加の伝播メカニズムが必要です。
この作業では、ランダムネットワーク蒸留(RND)に類似したスピリットで類似しているユニバーサルバリュー機能不確実性(UVU)を導入します。
RNDとは異なり、UVUエラーは、特定のポリシーが遭遇する可能性のある将来の不確実性を組み込んだポリシー条件の価値の不確実性を反映しています。
これは、UVUで採用されているトレーニング手順によるものです。オンラインネットワークは、固定されたランダムに初期化されたターゲットネットワークから派生した合成報酬を使用して、時間差学習を使用してトレーニングされています。
神経接線カーネル(NTK)理論を使用したアプローチの広範な理論分析を提供し、無限のネットワーク幅の限界では、UVUエラーが独立したユニバーサル値関数のアンサンブルの分散とまったく同等であることを示しています。
経験的には、UVUが挑戦的なマルチタスクオフラインRL設定で大規模なアンサンブルと同等のパフォーマンスを達成し、シンプルさと実質的な計算の節約を提供することを示しています。

要約(オリジナル)

Estimating epistemic uncertainty in value functions is a crucial challenge for many aspects of reinforcement learning (RL), including efficient exploration, safe decision-making, and offline RL. While deep ensembles provide a robust method for quantifying value uncertainty, they come with significant computational overhead. Single-model methods, while computationally favorable, often rely on heuristics and typically require additional propagation mechanisms for myopic uncertainty estimates. In this work we introduce universal value-function uncertainties (UVU), which, similar in spirit to random network distillation (RND), quantify uncertainty as squared prediction errors between an online learner and a fixed, randomly initialized target network. Unlike RND, UVU errors reflect policy-conditional value uncertainty, incorporating the future uncertainties any given policy may encounter. This is due to the training procedure employed in UVU: the online network is trained using temporal difference learning with a synthetic reward derived from the fixed, randomly initialized target network. We provide an extensive theoretical analysis of our approach using neural tangent kernel (NTK) theory and show that in the limit of infinite network width, UVU errors are exactly equivalent to the variance of an ensemble of independent universal value functions. Empirically, we show that UVU achieves equal performance to large ensembles on challenging multi-task offline RL settings, while offering simplicity and substantial computational savings.

arxiv情報

著者 Moritz A. Zanger,Max Weltevrede,Yaniv Oren,Pascal R. Van der Vaart,Caroline Horsch,Wendelin Böhmer,Matthijs T. J. Spaan
発行日 2025-06-02 16:01:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Universal Value-Function Uncertainties はコメントを受け付けていません