Distribution free M-estimation

要約

基礎となるデータ分布について仮定することなく解決可能な統計的問題を描写するという基本的な問題には、長いアニメーション化された統計と学習理論があります。
このホワイトペーパーでは、凸型のM推定または確率論的最適化問題がこのような仮定のない設定で溶解性があり、解決できない問題と解決不可能な問題の間の正確な分割線を提供することを特徴付けています。
私たちが特定する条件は、おそらく驚くべきことに、最小化されている損失のリプシッツの連続性は、分布のない最小化のために必要ではなく、機械学習における学習性の古典的な特性とは異なることを示しています。

要約(オリジナル)

The basic question of delineating those statistical problems that are solvable without making any assumptions on the underlying data distribution has long animated statistics and learning theory. This paper characterizes when a convex M-estimation or stochastic optimization problem is solvable in such an assumption-free setting, providing a precise dividing line between solvable and unsolvable problems. The conditions we identify show, perhaps surprisingly, that Lipschitz continuity of the loss being minimized is not necessary for distribution free minimization, and they are also distinct from classical characterizations of learnability in machine learning.

arxiv情報

著者 Felipe Areces,John C. Duchi
発行日 2025-06-17 15:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.ST, stat.TH | Distribution free M-estimation はコメントを受け付けていません

Analytics Modelling over Multiple Datasets using Vector Embeddings

要約

アナリストのデータボリュームとデータセットの可用性の大幅な増加により、研究者はデータコンテンツに焦点を当て、高品質のデータセットを選択して分析オペレーターのパフォーマンスを強化することを強いられます。
高品質のデータを選択すると、分析の精度と効率が大幅に向上しますが、大規模なデータセットの可用性を考えると、正確なプロセスは非常に困難です。
この問題に対処するために、利用可能なデータセットからモデルを作成することにより、分析オペレーターの結果を推進する新しい方法論を提案します。
各データセットは、類似性検索が採用されている提案されたディープラーニングモデルNumtabData2VECによって生成されるベクトル埋め込み表現に変換されます。
実験的評価を通じて、フレームワークの予測パフォーマンスと実行時間を、別の最先端のモデリングオペレーターフレームワークと比較し、アプローチが分析の結果を正確に予測し、スピードアップを増加させることを示しています。
さらに、ベクトル化モデルは、異なる実際のシナリオをより低いベクトル埋め込み表現に正確に投影し、それらを区別できます。

要約(オリジナル)

The massive increase in the data volume and dataset availability for analysts compels researchers to focus on data content and select high-quality datasets to enhance the performance of analytics operators. While selecting high-quality data significantly boosts analytical accuracy and efficiency, the exact process is very challenging given large-scale dataset availability. To address this issue, we propose a novel methodology that infers the outcome of analytics operators by creating a model from the available datasets. Each dataset is transformed to a vector embedding representation generated by our proposed deep learning model NumTabData2Vec, where similarity search are employed. Through experimental evaluation, we compare the prediction performance and the execution time of our framework to another state-of-the-art modelling operator framework, illustrating that our approach predicts analytics outcomes accurately, and increases speedup. Furthermore, our vectorization model can project different real-world scenarios to a lower vector embedding representation accurately and distinguish them.

arxiv情報

著者 Andreas Loizou,Dimitrios Tsoumakos
発行日 2025-06-17 15:45:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Analytics Modelling over Multiple Datasets using Vector Embeddings はコメントを受け付けていません

mFabric: An Efficient and Scalable Fabric for Mixture-of-Experts Training

要約

混合物(MOE)モデルは、トークンごとに異なるサブネット(\ empherss}という名前の異なるサブネットを選択的にアクティブにすることで、従来のモデルよりも優れています。
このゲート計算は、事前に決定できない動的通信を生成し、分散トレーニングプロセス中に既存のGPU相互接続に挑戦します。
この論文では、Topology Reconfiguration \ Emphing {of}分散型MOEトレーニングのロックを解除するMFABRICと呼ばれる最初の類似システムを提唱しています。
このビジョンに向けて、最初に実稼働測定研究を実施し、MOEの動的コミュニケーションパターンに{強い局所性}があることを示し、グローバルな再構成の要件を緩和します。
これに基づいて、光学回路スイッチング(OCS)を使用して既存の電気的相互接続の上に\ emphing {地域的に再構成可能な高帯域幅ドメイン}を設計および実装し、迅速な適応性を維持しながらスケーラビリティを実現します。
コモディティハードウェアを備えた完全に機能的なMFABRICプロトタイプと、32 A100 GPUにわたって\ end {in-training}トポロジの再構成で最新のMOEモデルを訓練するカスタマイズされた集合的な通信ランタイムを構築しました。
大規模なパケットレベルのシミュレーションは、MFABRICが4つの代表的なMOEモデルのトレーニングコスト効率(たとえば、パフォーマンス)を1.5 $ \ Times $および1.9 $ \ $ \ TIMES $ -2.3 $ \ $ \ TIMES $ 400 GBPS BANDWIDSで高める一方で、MFABRICが非ブロッキング脂肪ツリーファブリックとして同等のパフォーマンスを提供することを示しています。

要約(オリジナル)

Mixture-of-Expert (MoE) models outperform conventional models by selectively activating different subnets, named \emph{experts}, on a per-token basis. This gated computation generates dynamic communications that cannot be determined beforehand, challenging the existing GPU interconnects that remain \emph{static} during the distributed training process. In this paper, we advocate for a first-of-its-kind system, called mFabric, that unlocks topology reconfiguration \emph{during} distributed MoE training. Towards this vision, we first perform a production measurement study and show that the MoE dynamic communication pattern has \emph{strong locality}, alleviating the requirement of global reconfiguration. Based on this, we design and implement a \emph{regionally reconfigurable high-bandwidth domain} on top of existing electrical interconnects using optical circuit switching (OCS), achieving scalability while maintaining rapid adaptability. We have built a fully functional mFabric prototype with commodity hardware and a customized collective communication runtime that trains state-of-the-art MoE models with \emph{in-training} topology reconfiguration across 32 A100 GPUs. Large-scale packet-level simulations show that mFabric delivers comparable performance as the non-blocking fat-tree fabric while boosting the training cost efficiency (e.g., performance per dollar) of four representative MoE models by 1.2$\times$–1.5$\times$ and 1.9$\times$–2.3$\times$ at 100 Gbps and 400 Gbps link bandwidths, respectively.

arxiv情報

著者 Xudong Liao,Yijun Sun,Han Tian,Xinchen Wan,Yilun Jin,Zilong Wang,Zhenghang Ren,Xinyang Huang,Wenxue Li,Kin Fai Tse,Zhizhen Zhong,Guyue Liu,Ying Zhang,Xiaofeng Ye,Yiming Zhang,Kai Chen
発行日 2025-06-17 16:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NI | mFabric: An Efficient and Scalable Fabric for Mixture-of-Experts Training はコメントを受け付けていません

Understanding the Trade-offs in Accuracy and Uncertainty Quantification: Architecture and Inference Choices in Bayesian Neural Networks

要約

最新のニューラルネットワークがより複雑になるにつれて、高い予測パフォーマンスと音の不確実性の定量化を備えたモデルを指定することが、より困難なタスクになります。
ベイジアンニューラルネットワークの真の事後予測分布に関するいくつかの有望な理論的結果にもかかわらず、最も一般的に使用される後方近似の特性はしばしば疑問視されます。
計算上の負担と扱いにくい事後は、誤ったベイジアンニューラルネットワークを精度の低下と信頼できない不確実性の推定値にさらします。
おおよそのベイジアン推論は、未知で扱いにくい後部分布を、いくつかのよりシンプルだが実行可能な分布に置き換えることを目的としています。
現代の深いモデルの寸法は、識別可能性の欠如と相まって、マルコフチェーンモンテカルロ(MCMC)を非常に高価にし、マルチモーダル後部を完全に探索することができません。
一方、変動推論は、計算の複雑さの改善による利点がありますが、サンプリングベースの推論の漸近保証が欠けており、単一モードに集中する傾向があります。
両方のアプローチのパフォーマンスは、建築の選択に大きく依存します。
このペーパーは、大きな幅やサンプル外データを含むさまざまなシナリオでの計算コスト、精度、不確実性の定量化を考慮することにより、これにいくらかの光を当てることを目的としています。
事後探査を改善するために、さまざまなモデルの平均化とアンサンてテクニックが研究され、予測パフォーマンスに関する利点があります。
私たちの実験では、変分推論は全体的にMCMCよりも不確実性の定量化が改善されました。
さらに、変動近似のスタッキングとアンサンブルは、大幅に削減されたコストでMCMCに匹敵する精度を提供しました。

要約(オリジナル)

As modern neural networks get more complex, specifying a model with high predictive performance and sound uncertainty quantification becomes a more challenging task. Despite some promising theoretical results on the true posterior predictive distribution of Bayesian neural networks, the properties of even the most commonly used posterior approximations are often questioned. Computational burdens and intractable posteriors expose miscalibrated Bayesian neural networks to poor accuracy and unreliable uncertainty estimates. Approximate Bayesian inference aims to replace unknown and intractable posterior distributions with some simpler but feasible distributions. The dimensions of modern deep models, coupled with the lack of identifiability, make Markov chain Monte Carlo (MCMC) tremendously expensive and unable to fully explore the multimodal posterior. On the other hand, variational inference benefits from improved computational complexity but lacks the asymptotical guarantees of sampling-based inference and tends to concentrate around a single mode. The performance of both approaches heavily depends on architectural choices; this paper aims to shed some light on this by considering the computational costs, accuracy and uncertainty quantification in different scenarios including large width and out-of-sample data. To improve posterior exploration, different model averaging and ensembling techniques are studied, along with their benefits on predictive performance. In our experiments, variational inference overall provided better uncertainty quantification than MCMC; further, stacking and ensembles of variational approximations provided comparable accuracy to MCMC at a much-reduced cost.

arxiv情報

著者 Alisa Sheinkman,Sara Wade
発行日 2025-06-17 16:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML | Understanding the Trade-offs in Accuracy and Uncertainty Quantification: Architecture and Inference Choices in Bayesian Neural Networks はコメントを受け付けていません

Uniform Mean Estimation for Heavy-Tailed Distributions via Median-of-Means

要約

平均の中央値(MOM)は、尾のあるデータのコンテキストで人気を獲得した平均推定器です。
この作業では、データ分布が$ p \ in(1,2] $の最初の$ p $モーメントのみを所有している場合、クラス$ \ mathcal {f} $の各関数の平均を同時に推定するタスクでのパフォーマンスを分析します。
一般的な損失による入力と線形回帰、既存の作業の改善。

要約(オリジナル)

The Median of Means (MoM) is a mean estimator that has gained popularity in the context of heavy-tailed data. In this work, we analyze its performance in the task of simultaneously estimating the mean of each function in a class $\mathcal{F}$ when the data distribution possesses only the first $p$ moments for $p \in (1,2]$. We prove a new sample complexity bound using a novel symmetrization technique that may be of independent interest. Additionally, we present applications of our result to $k$-means clustering with unbounded inputs and linear regression with general losses, improving upon existing works.

arxiv情報

著者 Mikael Møller Høgsgaard,Andrea Paudice
発行日 2025-06-17 16:07:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Uniform Mean Estimation for Heavy-Tailed Distributions via Median-of-Means はコメントを受け付けていません

Addition is almost all you need: Compressing neural networks with double binary factorization

要約

重量行列をバイナリマトリックスに置き換え、コストのかかる乗算を安価な追加に置き換えるバイナリ量子化アプローチは、大規模な言語モデル(LLMS)の増加する計算およびストレージ要件に対処するための計算効率的なアプローチを提供します。
ただし、重度の量子化制約($ \ PM1 $)は、大幅な精度の劣化につながる可能性があります。
このホワイトペーパーでは、密な重量マトリックスを2つのバイナリ(符号)マトリックスの生成物に因数分解する斬新な方法であるダブルバイナリ因数分解(DBF)を提案します。
DBFは、バイナリ表現の効率的な利点を保持し、最先端の方法と競合する、または優れている圧縮率を達成します。
具体的には、1ビットあたりの1ビット範囲では、DBFは既存の二等層アプローチよりも優れています。
2ビットあたりの重量範囲では、DBFはQUIP \#やQTIPなどの最高の量子化方法と競合します。
制限された圧縮レベルの選択を提供するほとんどの既存の圧縮手法とは異なり、DBFは、因数分解の中間寸法を調整することにより、圧縮比を細かく制御できます。
この利点に基づいて、以前に開発されたチャネル剪定基準に基づいて、DBFの不均一な層ごとの圧縮比を推定するためのアルゴリズムをさらに導入します。
https://github.com/usamec/double_binaryで利用可能なコード

要約(オリジナル)

Binary quantization approaches, which replace weight matrices with binary matrices and substitute costly multiplications with cheaper additions, offer a computationally efficient approach to address the increasing computational and storage requirements of Large Language Models (LLMs). However, the severe quantization constraint ($\pm1$) can lead to significant accuracy degradation. In this paper, we propose Double Binary Factorization (DBF), a novel method that factorizes dense weight matrices into products of two binary (sign) matrices, each accompanied by scaling vectors. DBF preserves the efficiency advantages of binary representations while achieving compression rates that are competitive with or superior to state-of-the-art methods. Specifically, in a 1-bit per weight range, DBF is better than existing binarization approaches. In a 2-bit per weight range, DBF is competitive with the best quantization methods like QuIP\# and QTIP. Unlike most existing compression techniques, which offer limited compression level choices, DBF allows fine-grained control over compression ratios by adjusting the factorization’s intermediate dimension. Based on this advantage, we further introduce an algorithm for estimating non-uniform layer-wise compression ratios for DBF, based on previously developed channel pruning criteria. Code available at: https://github.com/usamec/double_binary

arxiv情報

著者 Vladimír Boža,Vladimír Macko
発行日 2025-06-17 16:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Addition is almost all you need: Compressing neural networks with double binary factorization はコメントを受け付けていません

When are dynamical systems learned from time series data statistically accurate?

要約

一般化の従来の概念は、動的データから意味のある情報をキャプチャする学習モデルの能力を説明することに失敗します。
小さなテストエラーで複雑なダイナミクスを学習するニューラルネットワークは、関連する統計モーメントやリアプノフ指数を含む\ emph {物理}動作を再現できない場合があります。
このギャップに対処するために、時系列データから学んだ複雑な動的モデルの一般化に対するエルゴードの理論的アプローチを提案します。
私たちの主な貢献は、根本的な不変の物理的尺度をエミュレートする方法で、カオスシステムを含むクラスのクラスの幅広い神経表現の一般化を定義および分析することです。
我々の結果は、動的システムの発生器(ニューラルODE)の回帰方法が一般化できない理由と、トレーニング中にヤコビアの情報を追加すると統計的精度が向上する理由についての理論的正当化を提供します。
MLP、Resnet、フーリエ神経層、RNNを含む多くのエルゴジックな混oticとしたシステムとニューラルネットワークパラメーター化に関する結果を検証します。

要約(オリジナル)

Conventional notions of generalization often fail to describe the ability of learned models to capture meaningful information from dynamical data. A neural network that learns complex dynamics with a small test error may still fail to reproduce its \emph{physical} behavior, including associated statistical moments and Lyapunov exponents. To address this gap, we propose an ergodic theoretic approach to generalization of complex dynamical models learned from time series data. Our main contribution is to define and analyze generalization of a broad suite of neural representations of classes of ergodic systems, including chaotic systems, in a way that captures emulating underlying invariant, physical measures. Our results provide theoretical justification for why regression methods for generators of dynamical systems (Neural ODEs) fail to generalize, and why their statistical accuracy improves upon adding Jacobian information during training. We verify our results on a number of ergodic chaotic systems and neural network parameterizations, including MLPs, ResNets, Fourier Neural layers, and RNNs.

arxiv情報

著者 Jeongjin Park,Nicole Yang,Nisha Chandramoorthy
発行日 2025-06-17 16:54:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math-ph, math.DS, math.MP, math.ST, stat.TH | When are dynamical systems learned from time series data statistically accurate? はコメントを受け付けていません

Improving Group Robustness on Spurious Correlation via Evidential Alignment

要約

深いニューラルネットワークは、多くの場合、偽の相関、つまり非因果的特徴とターゲットとの間の表面的な関連性を学び、依存しています。
たとえば、画像分類器は砂漠の背景に基づいてラクダを識別する場合があります。
トレーニング中に全体的な精度が高くなる可能性がありますが、そのような相関関係が成り立たないより多様なシナリオの一般化を低下させます。
この問題は、分散型の堅牢性と信頼性に大きな課題をもたらします。
既存の方法は、通常、外部グループアノテーションまたは補助的な決定論的モデルを使用して、偏りのない表現を学習することにより、この問題を軽減します。
ただし、そのような情報は取得するのに費用がかかり、決定論的モデルはモデルによって学習したバイアスの全範囲をキャプチャできない場合があります。
これらの制限に対処するために、グループアノテーションを必要とせずにバイアスモデルの動作を理解するために不確実性の定量化を活用する新しいフレームワークである証拠アライメントを提案します。
2次リスクの最小化でモデル予測の証拠を定量化し、提案された証拠キャリブレーション手法でバイアスモデルを調整することにより、証拠のアライメントは、コア機能を維持しながら、偽の相関を識別および抑制します。
私たちは、偏ったモデルのパターンを学習し、偽の相関注釈を必要とせずにモデルを削除することができると理論的に正当化します。
経験的な結果は、この方法が多様なアーキテクチャとデータのモダリティ全体でグループの堅牢性を大幅に改善し、偽の相関に対するスケーラブルで原則的なソリューションを提供することを示しています。

要約(オリジナル)

Deep neural networks often learn and rely on spurious correlations, i.e., superficial associations between non-causal features and the targets. For instance, an image classifier may identify camels based on the desert backgrounds. While it can yield high overall accuracy during training, it degrades generalization on more diverse scenarios where such correlations do not hold. This problem poses significant challenges for out-of-distribution robustness and trustworthiness. Existing methods typically mitigate this issue by using external group annotations or auxiliary deterministic models to learn unbiased representations. However, such information is costly to obtain, and deterministic models may fail to capture the full spectrum of biases learned by the models. To address these limitations, we propose Evidential Alignment, a novel framework that leverages uncertainty quantification to understand the behavior of the biased models without requiring group annotations. By quantifying the evidence of model prediction with second-order risk minimization and calibrating the biased models with the proposed evidential calibration technique, Evidential Alignment identifies and suppresses spurious correlations while preserving core features. We theoretically justify the effectiveness of our method as capable of learning the patterns of biased models and debiasing the model without requiring any spurious correlation annotations. Empirical results demonstrate that our method significantly improves group robustness across diverse architectures and data modalities, providing a scalable and principled solution to spurious correlations.

arxiv情報

著者 Wenqian Ye,Guangtao Zheng,Aidong Zhang
発行日 2025-06-17 16:55:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Improving Group Robustness on Spurious Correlation via Evidential Alignment はコメントを受け付けていません

On the Hardness of Bandit Learning

要約

真の報酬関数fは既知のがarbitrary意的な機能クラスFに属するという仮定の下で、ベストアーム識別としても知られる盗賊学習のタスクを研究します。
私たちの調査は、次の2つの質問に基づいています。(1)どのクラスfが学習できるか、(2)それらがどのように学習できるか。
たとえば、バイナリPAC分類の場合、学習性は組み合わせの次元(VCディメンション)によって完全に決定され、単純なアルゴリズム原理、すなわち経験的リスク最小化(ERM)によって達成できます。
古典的な学習の理論的結果とは対照的に、私たちの調査結果は、構造化された盗賊における学習の限界を明らかにし、盗賊の学習性の境界に関する洞察を提供します。
まず、「どちら」の問題については、ディメンションのような量を介して学習可能なクラスを識別するパラダイムが盗賊学習に失敗することを示します。
Ben-David et al。
(2019)。
「方法」の問題については、計算硬度の結果を証明します。最適なアクションを見つけるために最大2つのクエリが必要な報酬関数クラスを構築しますが、rp = npでない限り、アルゴリズムは多項式時間ではそれを行うことはできません。
また、このクラスは、ERMなどの学習理論でしばしば考慮される標準的なアルゴリズム操作の効率的なアルゴリズムを認めていることを証明します。
これは、この場合、計算硬度が盗賊学習のタスクに固有のものであることを意味します。
これらの結果を超えて、ノイズの下での学習、ノイズモデル間のトレードオフ、クエリの複雑さと後悔の最小化の関係などの追加のテーマを調査します。

要約(オリジナル)

We study the task of bandit learning, also known as best-arm identification, under the assumption that the true reward function f belongs to a known, but arbitrary, function class F. We seek a general theory of bandit learnability, akin to the PAC framework for classification. Our investigation is guided by the following two questions: (1) which classes F are learnable, and (2) how they are learnable. For example, in the case of binary PAC classification, learnability is fully determined by a combinatorial dimension – the VC dimension- and can be attained via a simple algorithmic principle, namely, empirical risk minimization (ERM). In contrast to classical learning-theoretic results, our findings reveal limitations of learning in structured bandits, offering insights into the boundaries of bandit learnability. First, for the question of ‘which’, we show that the paradigm of identifying the learnable classes via a dimension-like quantity fails for bandit learning. We give a simple proof demonstrating that no combinatorial dimension can characterize bandit learnability, even in finite classes, following a standard definition of dimension introduced by Ben-David et al. (2019). For the question of ‘how’, we prove a computational hardness result: we construct a reward function class for which at most two queries are needed to find the optimal action, yet no algorithm can do so in polynomial time unless RP=NP. We also prove that this class admits efficient algorithms for standard algorithmic operations often considered in learning theory, such as an ERM. This implies that computational hardness is in this case inherent to the task of bandit learning. Beyond these results, we investigate additional themes such as learning under noise, trade-offs between noise models, and the relationship between query complexity and regret minimization.

arxiv情報

著者 Nataly Brukhim,Aldo Pacchiano,Miroslav Dudik,Robert Schapire
発行日 2025-06-17 17:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | On the Hardness of Bandit Learning はコメントを受け付けていません

Reinforcement Learning with Segment Feedback

要約

標準補強学習(RL)は、エージェントが各状態アクションペアに対して報酬を観察できると想定しています。
ただし、実際のアプリケーションでは、各状態アクションペアに対して報酬を収集することが困難で費用がかかることがよくあります。
軌道のフィードバックを伴うRLを検討しているいくつかの作品がありましたが、軌跡のフィードバックが軌道の長い時期に学習するのに非効率的であるかどうかは不明です。
この作業では、セグメントフィードバックを備えたRLという名前のモデルを検討します。このモデルは、一般的なパラダイムを提供し、州ごとのアクションフィードバックと軌道フィードバックの間のギャップを埋めることができます。
このモデルでは、各エピソードが$ m $セグメントに分割され、エージェントが各セグメントの最後にのみ報酬フィードバックを観察するエピソードマルコフ決定プロセス(MDP)を検討します。
このモデルでは、2つの一般的なフィードバック設定を調査します。バイナリフィードバックとサムフィードバック。エージェントは、基礎となる報酬関数に従ってそれぞれバイナリの結果と報酬合計を観察します。
学習パフォーマンスに対するセグメント$ M $の数の影響を調査するために、効率的なアルゴリズムを設計し、両方のフィードバック設定の後悔の上限と下限を確立します。
理論的および実験的結果は、次のことを示しています。バイナリフィードバックの下で、セグメントの数を増やすと、指数関数的な速度で後悔が減少します。
対照的に、驚くべきことに、合計フィードバックの下で、$ M $を増やすことは後悔を大幅に減らすことはありません。

要約(オリジナル)

Standard reinforcement learning (RL) assumes that an agent can observe a reward for each state-action pair. However, in practical applications, it is often difficult and costly to collect a reward for each state-action pair. While there have been several works considering RL with trajectory feedback, it is unclear if trajectory feedback is inefficient for learning when trajectories are long. In this work, we consider a model named RL with segment feedback, which offers a general paradigm filling the gap between per-state-action feedback and trajectory feedback. In this model, we consider an episodic Markov decision process (MDP), where each episode is divided into $m$ segments, and the agent observes reward feedback only at the end of each segment. Under this model, we study two popular feedback settings: binary feedback and sum feedback, where the agent observes a binary outcome and a reward sum according to the underlying reward function, respectively. To investigate the impact of the number of segments $m$ on learning performance, we design efficient algorithms and establish regret upper and lower bounds for both feedback settings. Our theoretical and experimental results show that: under binary feedback, increasing the number of segments $m$ decreases the regret at an exponential rate; in contrast, surprisingly, under sum feedback, increasing $m$ does not reduce the regret significantly.

arxiv情報

著者 Yihan Du,Anna Winnicki,Gal Dalal,Shie Mannor,R. Srikant
発行日 2025-06-17 17:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Reinforcement Learning with Segment Feedback はコメントを受け付けていません