Rethinking Probabilistic Circuit Parameter Learning

要約

確率的回路(PC)は、生成モデリングのための計算的にスケーラブルなフレームワークを提供し、幅広い確率的クエリの正確かつ効率的な推論をサポートします。
最近の進歩により、PCの表現力とスケーラビリティが大幅に向上しましたが、パラメーターを効果的にトレーニングすることは依然として課題です。
特に、広く使用されている最適化方法であるフルバッチの予想最大化(EM)では、単一の更新を実行する前にデータセット全体を処理する必要があり、大規模なデータセットには効果がありません。
ミニバッチ設定への経験的拡張は提案されていますが、これらのアルゴリズムがどの目的で最適化しているのかは不明のままであり、理論的な健全性を評価することは困難です。
このペーパーは、一般的なEM目的と標準のフルバッチEMアルゴリズムとの間に新しいつながりを確立することにより、ギャップを橋渡しします。
これに基づいて、理論的に根拠のある一般化をミニバッチ設定に導き出し、予備的な経験的結果を通じてその有効性を実証します。

要約(オリジナル)

Probabilistic Circuits (PCs) offer a computationally scalable framework for generative modeling, supporting exact and efficient inference of a wide range of probabilistic queries. While recent advances have significantly improved the expressiveness and scalability of PCs, effectively training their parameters remains a challenge. In particular, a widely used optimization method, full-batch Expectation-Maximization (EM), requires processing the entire dataset before performing a single update, making it ineffective for large datasets. While empirical extensions to the mini-batch setting have been proposed, it remains unclear what objective these algorithms are optimizing, making it difficult to assess their theoretical soundness. This paper bridges the gap by establishing a novel connection between the general EM objective and the standard full-batch EM algorithm. Building on this, we derive a theoretically grounded generalization to the mini-batch setting and demonstrate its effectiveness through preliminary empirical results.

arxiv情報

著者 Anji Liu,Guy Van den Broeck
発行日 2025-05-26 13:41:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Rethinking Probabilistic Circuit Parameter Learning はコメントを受け付けていません

Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement

要約

音声強化(SE)は、騒々しい環境での音声の品質と明瞭度を改善することを目的としています。
最近の研究では、オーディオ信号処理に視覚的な手がかりを組み込むと、SEパフォーマンスが向上することが示されています。
人間の音声コミュニケーションには自然に音声、視覚、言語のモダリティが含まれることを考えると、言語情報を統合することにより、追加の改善を期待することは合理的です。
ただし、これらのモダリティのギャップを効果的に橋渡しすることは、特に知識の移転中に依然として大きな課題です。
このホワイトペーパーでは、視聴覚音声増強(AVSE)のためにオーディオ、視覚、および言語情報を統合する拡散ベースのモデルを活用するDLAV-SEと呼ばれる新しいマルチモーダル学習フレームワークを提案します。
このフレーム内で、言語モダリティは、トレーニング中のクロスモーダルナレッジ転送(CMKT)メカニズムを通じて言語知識を視聴覚ドメインに伝達する前提条件モデル(PLM)を使用してモデル化されます。
トレーニング後、PLMは、CMKTプロセスを通じてその知識がAVSEモデルに組み込まれているため、推論では必要ありません。
アプローチの有効性を評価するために、一連のSE実験を実施します。
結果は、提案されたDLAV-SEシステムが音声品質を大幅に改善し、最先端の(SOTA)方法と比較して、音声混乱などの生成アーティファクトを減らすことを示しています。
さらに、視覚化分析により、CMKTメソッドがAVSE出力の生成品質が向上することを確認します。
これらの調査結果は、AVSEを進めるための拡散ベースの方法の約束と、言語情報を組み込んでシステムのパフォーマンスをさらに向上させることの価値の両方を強調しています。

要約(オリジナル)

Speech enhancement (SE) aims to improve the quality and intelligibility of speech in noisy environments. Recent studies have shown that incorporating visual cues in audio signal processing can enhance SE performance. Given that human speech communication naturally involves audio, visual, and linguistic modalities, it is reasonable to expect additional improvements by integrating linguistic information. However, effectively bridging these modality gaps, particularly during knowledge transfer remains a significant challenge. In this paper, we propose a novel multi-modal learning framework, termed DLAV-SE, which leverages a diffusion-based model integrating audio, visual, and linguistic information for audio-visual speech enhancement (AVSE). Within this framework, the linguistic modality is modeled using a pretrained language model (PLM), which transfers linguistic knowledge to the audio-visual domain through a cross-modal knowledge transfer (CMKT) mechanism during training. After training, the PLM is no longer required at inference, as its knowledge is embedded into the AVSE model through the CMKT process. We conduct a series of SE experiments to evaluate the effectiveness of our approach. Results show that the proposed DLAV-SE system significantly improves speech quality and reduces generative artifacts, such as phonetic confusion, compared to state-of-the-art (SOTA) methods. Furthermore, visualization analyses confirm that the CMKT method enhances the generation quality of the AVSE outputs. These findings highlight both the promise of diffusion-based methods for advancing AVSE and the value of incorporating linguistic information to further improve system performance.

arxiv情報

著者 Meng-Ping Lin,Jen-Cheng Hou,Chia-Wei Chen,Shao-Yi Chien,Jun-Cheng Chen,Xugang Lu,Yu Tsao
発行日 2025-05-26 13:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement はコメントを受け付けていません

Regret Analysis of Average-Reward Unichain MDPs via an Actor-Critic Approach

要約

俳優の批判的な方法は、そのスケーラビリティに広く使用されていますが、無限帯の平均報酬マルコフ決定プロセス(MDP)の既存の理論的保証は、しばしば制限的な緊張性の仮定に依存しています。
バッチングを伴う自然な俳優criticであるNac-Bを提案します。これは、$ \ tilde {o}(\ sqrt {t})$の順序最適な後悔を達成します。
この仮定は、古典的なポリシーグラデーション定理が平均報酬設定に対して有効なままである最も弱いものの1つです。
NAC-Bは、俳優と批評家の両方に関数近似を採用し、大規模な状態およびアクションスペースの問題に対するスケーラビリティを可能にします。
アルゴリズムでのバッチの使用は、MDPの潜在的な周期性を緩和し、勾配推定の確率を低下させるのに役立ち、分析は定数の$ c _ {\ text {hit}} $および$ c _ {\ text {tar}}の導入を通じてこれらの利点を形成します。

要約(オリジナル)

Actor-Critic methods are widely used for their scalability, yet existing theoretical guarantees for infinite-horizon average-reward Markov Decision Processes (MDPs) often rely on restrictive ergodicity assumptions. We propose NAC-B, a Natural Actor-Critic with Batching, that achieves order-optimal regret of $\tilde{O}(\sqrt{T})$ in infinite-horizon average-reward MDPs under the unichain assumption, which permits both transient states and periodicity. This assumption is among the weakest under which the classic policy gradient theorem remains valid for average-reward settings. NAC-B employs function approximation for both the actor and the critic, enabling scalability to problems with large state and action spaces. The use of batching in our algorithm helps mitigate potential periodicity in the MDP and reduces stochasticity in gradient estimates, and our analysis formalizes these benefits through the introduction of the constants $C_{\text{hit}}$ and $C_{\text{tar}}$, which characterize the rate at which empirical averages over Markovian samples converge to the stationary distribution.

arxiv情報

著者 Swetha Ganesh,Vaneet Aggarwal
発行日 2025-05-26 13:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Regret Analysis of Average-Reward Unichain MDPs via an Actor-Critic Approach はコメントを受け付けていません

Federated Domain Generalization with Data-free On-server Matching Gradient

要約

ドメイン一般化(DG)は、複数の既知のソースドメインから、未知のターゲットドメインに適切に一般化できるモデルを学習することを目的としています。
DGの重要なアプローチの1つは、ドメインに不変の表現を生成するエンコーダーをトレーニングすることです。
ただし、このアプローチは、さまざまなドメインからのデータが異なるクライアントに分散されているフェデレーションドメイン一般化(FDG)には適用できません。
このホワイトペーパーでは、オンサーバーマッチンググラデーション(Fedomg)を介してフェデレーションラーニングと呼ばれる新しいアプローチを紹介します。
具体的には、分散モデルに関する情報としてローカル勾配を利用して、勾配内の製品の最大化を通じてすべてのドメインにわたって不変の勾配方向を見つけます。
利点は2つあります。1)FEDOMGは、追加の通信コストを負担することなく、集中サーバー上の分散モデルの特性を集約できます。
他のFL/FDGベースラインと比較して、FEDOMGの堅牢性を実証するために、さまざまな設定での広範な実験的評価。
私たちの方法は、4つのFLベンチマークデータセット(MNIST、EMNIST、CIFAR-10、およびCIFAR-100)の最近のSOTAベースライン、および3つのFDGベンチマークデータセット(PAC、VLC、およびOfficeHome)を上回っています。

要約(オリジナル)

Domain Generalization (DG) aims to learn from multiple known source domains a model that can generalize well to unknown target domains. One of the key approaches in DG is training an encoder which generates domain-invariant representations. However, this approach is not applicable in Federated Domain Generalization (FDG), where data from various domains are distributed across different clients. In this paper, we introduce a novel approach, dubbed Federated Learning via On-server Matching Gradient (FedOMG), which can \emph{efficiently leverage domain information from distributed domains}. Specifically, we utilize the local gradients as information about the distributed models to find an invariant gradient direction across all domains through gradient inner product maximization. The advantages are two-fold: 1) FedOMG can aggregate the characteristics of distributed models on the centralized server without incurring any additional communication cost, and 2) FedOMG is orthogonal to many existing FL/FDG methods, allowing for additional performance improvements by being seamlessly integrated with them. Extensive experimental evaluations on various settings to demonstrate the robustness of FedOMG compared to other FL/FDG baselines. Our method outperforms recent SOTA baselines on four FL benchmark datasets (MNIST, EMNIST, CIFAR-10, and CIFAR-100), and three FDG benchmark datasets (PACS, VLCS, and OfficeHome).

arxiv情報

著者 Trong-Binh Nguyen,Minh-Duong Nguyen,Jinsun Park,Quoc-Viet Pham,Won Joo Hwang
発行日 2025-05-26 13:44:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68Q32, cs.AI, cs.DC, cs.LG, cs.MA, I.2.11 | Federated Domain Generalization with Data-free On-server Matching Gradient はコメントを受け付けていません

Learning Optimal Multimodal Information Bottleneck Representations

要約

マルチモーダルデータから高品質のジョイント表現を活用すると、さまざまな機械学習ベースのアプリケーションでモデルのパフォーマンスを大幅に向上させることができます。
マルチモーダル情報ボトルネック(MIB)原理に基づく最近のマルチモーダル学習方法は、最大のタスク関連情報と正規化による最小限の余分な情報を含む最適なMIBを生成することを目的としています。
ただし、これらの方法は、多くの場合、アドホックな正則化の重みを設定し、モダリティ全体で不均衡なタスク関連情報を見落とし、最適なMIBを達成する能力を制限します。
このギャップに対処するために、新しいマルチモーダル学習フレームワークである最適なマルチモーダル情報ボトルネック(OMIB)を提案します。その最適化目標は、理論的に導出されたバウンド内で正規化重量を設定することにより、最適なMIBの達成可能性を保証します。
Omibはさらに、モダリティごとに正規化の重みを動的に調整し、すべてのタスク関連情報を含めることを促進することにより、不均衡なタスク関連情報に対処します。
さらに、Omibの最適化のための強固な情報理論的基盤を確立し、計算効率のための変分近似フレームワークの下でそれを実装します。
最後に、合成データに関するOmibの理論的特性を経験的に検証し、さまざまな下流タスクにおける最先端のベンチマーク方法に対する優位性を実証します。

要約(オリジナル)

Leveraging high-quality joint representations from multimodal data can greatly enhance model performance in various machine-learning based applications. Recent multimodal learning methods, based on the multimodal information bottleneck (MIB) principle, aim to generate optimal MIB with maximal task-relevant information and minimal superfluous information via regularization. However, these methods often set ad hoc regularization weights and overlook imbalanced task-relevant information across modalities, limiting their ability to achieve optimal MIB. To address this gap, we propose a novel multimodal learning framework, Optimal Multimodal Information Bottleneck (OMIB), whose optimization objective guarantees the achievability of optimal MIB by setting the regularization weight within a theoretically derived bound. OMIB further addresses imbalanced task-relevant information by dynamically adjusting regularization weights per modality, promoting the inclusion of all task-relevant information. Moreover, we establish a solid information-theoretical foundation for OMIB’s optimization and implement it under the variational approximation framework for computational efficiency. Finally, we empirically validate the OMIB’s theoretical properties on synthetic data and demonstrate its superiority over the state-of-the-art benchmark methods in various downstream tasks.

arxiv情報

著者 Qilong Wu,Yiyang Shao,Jun Wang,Xiaobo Sun
発行日 2025-05-26 13:48:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Learning Optimal Multimodal Information Bottleneck Representations はコメントを受け付けていません

TabPFN: One Model to Rule Them All?

要約

Hollmann et al。
(Nature 637(2025)319-326)最近、TABPFNが導入されました。TABPFNは、表形式データの回帰と分類のための変圧器ベースのディープ学習モデルであり、「最大10,000サンプルのデータセット上のすべての以前のメソッドを、トレーニング時間を大幅に短くして、最大10,000サンプルのすべての方法を上回る」と主張しています。
さらに、「データ生成、密度推定、学習再利用可能な埋め込み、微調整」をサポートできるため、TABPFNと呼ばれています。
これらのステートメントが十分にサポートされている場合、TABPFNは、幅広い統計タスクで既存のモデリングアプローチに取って代わる可能性がある可能性があり、大規模な言語モデルの出現から始まった人工知能の他の分野で同様の革命を反映しています。
この論文では、統計視聴者のためにTABPFNがどのように機能するかについての調整された説明を提供します。
また、TABPFNの「基礎モデル」機能のより多くの証拠を提供します。TABPFNのすぐに使えるアプリケーションが、半監視パラメーター推定、共変量シフト下での予測、および異種治療効果の推定のための特殊な最先端の方法を大幅に上回ることを示しています。
さらに、TABPFNがスパース回帰でラッソを上回り、分類における堅牢性効率のトレードオフを破ることができることを示します。
すべての実験は、https://github.com/qinglong-tian/tabpfn_study(https://github.com/qinglong-tian/tabpfn_study)に提供されるコードを使用して再現できます。

要約(オリジナル)

Hollmann et al. (Nature 637 (2025) 319-326) recently introduced TabPFN, a transformer-based deep learning model for regression and classification on tabular data, which they claim ‘outperforms all previous methods on datasets with up to 10,000 samples by a wide margin, using substantially less training time.’ Furthermore, they have called TabPFN a ‘foundation model’ for tabular data, as it can support ‘data generation, density estimation, learning reusable embeddings and fine-tuning’. If these statements are well-supported, TabPFN may have the potential to supersede existing modeling approaches on a wide range of statistical tasks, mirroring a similar revolution in other areas of artificial intelligence that began with the advent of large language models. In this paper, we provide a tailored explanation of how TabPFN works for a statistics audience, by emphasizing its interpretation as approximate Bayesian inference. We also provide more evidence of TabPFN’s ‘foundation model’ capabilities: We show that an out-of-the-box application of TabPFN vastly outperforms specialized state-of-the-art methods for semi-supervised parameter estimation, prediction under covariate shift, and heterogeneous treatment effect estimation. We further show that TabPFN can outperform LASSO at sparse regression and can break a robustness-efficiency trade-off in classification. All experiments can be reproduced using the code provided at https://github.com/qinglong-tian/tabpfn_study (https://github.com/qinglong-tian/tabpfn_study).

arxiv情報

著者 Qiong Zhang,Yan Shuo Tan,Qinglong Tian,Pengfei Li
発行日 2025-05-26 13:55:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | TabPFN: One Model to Rule Them All? はコメントを受け付けていません

Prediction-Powered E-Values

要約

品質の統計的推論には、十分な量のデータが必要であり、取得が不足しているか、取得が難しい場合があります。
この目的のために、予測駆動の推論は有望な方法論として上昇していますが、既存のアプローチは、平均や分位数の推論などのZ推定問題に大きく限定されています。
このホワイトペーパーでは、e値に対する予測駆動の推論のアイデアを適用します。
そうすることで、任意の妥当性、事後妥当性、多目的な順次推論などの電子値のすべての通常の利点を継承し、予測駆動の方法で達成可能な一連の推論を大幅に拡張します。
特に、電子値の観点からフレーム化できるすべての推論手順には、私たちの方法で与えられた予測駆動の対応物があることを示します。
単純な仮説テストや信頼区間から、以前の技術の範囲外であった変更点検出と因果発見のためのより複雑な手順まで、幅広い推論タスクにわたるフレームワークの有効性を紹介します。
私たちのアプローチはモジュール式であり、既存のアルゴリズムに簡単に統合でき、実用的なアプリケーションに説得力のある選択肢となっています。

要約(オリジナル)

Quality statistical inference requires a sufficient amount of data, which can be missing or hard to obtain. To this end, prediction-powered inference has risen as a promising methodology, but existing approaches are largely limited to Z-estimation problems such as inference of means and quantiles. In this paper, we apply ideas of prediction-powered inference to e-values. By doing so, we inherit all the usual benefits of e-values — such as anytime-validity, post-hoc validity and versatile sequential inference — as well as greatly expand the set of inferences achievable in a prediction-powered manner. In particular, we show that every inference procedure that can be framed in terms of e-values has a prediction-powered counterpart, given by our method. We showcase the effectiveness of our framework across a wide range of inference tasks, from simple hypothesis testing and confidence intervals to more involved procedures for change-point detection and causal discovery, which were out of reach of previous techniques. Our approach is modular and easily integrable into existing algorithms, making it a compelling choice for practical applications.

arxiv情報

著者 Daniel Csillag,Claudio José Struchiner,Guilherme Tegoni Goedert
発行日 2025-05-26 13:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML | Prediction-Powered E-Values はコメントを受け付けていません

Data-Dependent Regret Bounds for Constrained MABs

要約

このペーパーでは、制約されたMAB設定におけるデータ依存の後悔の境界の研究を開始します。
これらの境界は、問題インスタンスを特徴付ける一連の損失に依存します。
したがって、それらは古典的な$ \ widetilde {\ mathcal {o}}(\ sqrt {t})$後悔の境界よりもはるかに小さくなりますが、最悪の場合はそれらに相当します。
それにもかかわらず、拘束されたMAB設定では、データ依存の後悔の境界が完全に見落とされています。
この論文の目標は、次の質問に答えることです。データ依存の後悔の範囲は、制約の存在下で導き出すことができますか?
この質問は、敵対的な損失と確率的制約を伴う制約されたmabで肯定的に答えます。
具体的には、私たちの主な焦点は、ハード制約を備えた最も挑戦的で自然な設定にあります。この場合、学習者は、制約が常に高い確率で満たされることを保証する必要があります。
2つのデータ依存性項で構成される後悔のバウンドでアルゴリズムを設計します。
最初の用語は制約を満たすことの難しさを捉え、2番目の用語は制約の存在とは無関係に学習の複雑さをコードします。
また、これらの2つの用語が特定のアプローチと分析のアーティファクトではなく、問題の複雑さを本質的に特徴付ける基本的なコンポーネントであることを示す下限を証明します。
最後に、アルゴリズムを設計する際には、関連する(そして簡単な)ソフト制約設定でいくつかの新しい結果を導き出します。

要約(オリジナル)

This paper initiates the study of data-dependent regret bounds in constrained MAB settings. These bounds depend on the sequence of losses that characterize the problem instance. Thus, they can be much smaller than classical $\widetilde{\mathcal{O}}(\sqrt{T})$ regret bounds, while being equivalent to them in the worst case. Despite this, data-dependent regret bounds have been completely overlooked in constrained MAB settings. The goal of this paper is to answer the following question: Can data-dependent regret bounds be derived in the presence of constraints? We answer this question affirmatively in constrained MABs with adversarial losses and stochastic constraints. Specifically, our main focus is on the most challenging and natural settings with hard constraints, where the learner must ensure that the constraints are always satisfied with high probability. We design an algorithm with a regret bound consisting of two data-dependent terms. The first term captures the difficulty of satisfying the constraints, while the second one encodes the complexity of learning independently of the presence of constraints. We also prove a lower bound showing that these two terms are not artifacts of our specific approach and analysis, but rather the fundamental components that inherently characterize the complexities of the problem. Finally, in designing our algorithm, we also derive some novel results in the related (and easier) soft constraints settings, which may be of independent interest.

arxiv情報

著者 Gianmarco Genalti,Francesco Emanuele Stradi,Matteo Castiglioni,Alberto Marchesi,Nicola Gatti
発行日 2025-05-26 14:00:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Data-Dependent Regret Bounds for Constrained MABs はコメントを受け付けていません

Kernel-based estimators for functional causal effects

要約

経験的データスペースに合わせて調整された経験的FR \ ‘{e} CHET平均値とオペレーター値カーネルに基づいて因果効果推定器を提案します。
これらの方法は、治療の誤りに堅牢性を維持しながら、高次元性、連続的な順序、モデルの複雑さの課題に対処します。
構造的仮定を使用して、潜在的な結果のコンパクトな表現を取得し、時間の経過とともに因果効果のスケーラブルな推定を可能にします。
機能的因果効果の一貫性と、提案された因果効果推定器の範囲の経験的比較に関して、理論的な両方を提供します。
機能的結果を伴うバイナリ治療設定への応用は、結果が複雑な時間的ダイナミクスを示す生物医学モニタリングにおけるフレームワークの有用性を示しています。
当社の推定値は、登録済みの共変量と結果を備えたシナリオに対応し、それらをFR \ ‘{e} Chet手段に合わせ、複雑な共変量の結果の相互作用をキャプチャするために高次表現を必要とするケースに対応します。
これらの進歩は、動的および非線形ドメインへの因果推論を拡張し、機能データ設定で複雑な治療効果を理解するための新しいツールを提供します。

要約(オリジナル)

We propose causal effect estimators based on empirical Fr\'{e}chet means and operator-valued kernels, tailored to functional data spaces. These methods address the challenges of high-dimensionality, sequential ordering, and model complexity while preserving robustness to treatment misspecification. Using structural assumptions, we obtain compact representations of potential outcomes, enabling scalable estimation of causal effects over time and across covariates. We provide both theoretical, regarding the consistency of functional causal effects, as well as empirical comparison of a range of proposed causal effect estimators. Applications to binary treatment settings with functional outcomes illustrate the framework’s utility in biomedical monitoring, where outcomes exhibit complex temporal dynamics. Our estimators accommodate scenarios with registered covariates and outcomes, aligning them to the Fr\'{e}chet means, as well as cases requiring higher-order representations to capture intricate covariate-outcome interactions. These advancements extend causal inference to dynamic and non-linear domains, offering new tools for understanding complex treatment effects in functional data settings.

arxiv情報

著者 Yordan P. Raykov,Hengrui Luo,Justin D. Strait,Wasiur R. KhudaBukhsh
発行日 2025-05-26 14:03:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62G05, cs.LG, G.3, math.ST, stat.ME, stat.TH | Kernel-based estimators for functional causal effects はコメントを受け付けていません

Linear Bandits with Non-i.i.d. Noise

要約

線形確率的盗賊問題を研究し、標準的なi.i.d.をリラックスさせます。
観測ノイズの仮定。
この制限的な仮定に代わるものとして、ラウンド全体のノイズ項がサブガウスであるが相互依存的であり、依存関係が時間の経過とともに崩壊することを許可します。
この設定に対処するために、最近導入された削減スキームを順次確率割り当てして新しい信頼シーケンスを開発し、これらを使用して、不確実性に直面した楽観主義の原理に基づいて盗賊アルゴリズムを導き出します。
観測間の依存性の強度の減衰率の観点から表される、結果のアルゴリズムの後悔の境界を提供します。
他の結果の中でも、観測ノイズを幾何学的に混合するための混合時間の係数まで標準速度を回収することを示します。

要約(オリジナル)

We study the linear stochastic bandit problem, relaxing the standard i.i.d. assumption on the observation noise. As an alternative to this restrictive assumption, we allow the noise terms across rounds to be sub-Gaussian but interdependent, with dependencies that decay over time. To address this setting, we develop new confidence sequences using a recently introduced reduction scheme to sequential probability assignment, and use these to derive a bandit algorithm based on the principle of optimism in the face of uncertainty. We provide regret bounds for the resulting algorithm, expressed in terms of the decay rate of the strength of dependence between observations. Among other results, we show that our bounds recover the standard rates up to a factor of the mixing time for geometrically mixing observation noise.

arxiv情報

著者 Baptiste Abélès,Eugenio Clerico,Hamish Flynn,Gergely Neu
発行日 2025-05-26 14:06:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Linear Bandits with Non-i.i.d. Noise はコメントを受け付けていません