要約
機密性の高い機械学習アプリケーションにおけるモデリングの不確実性のニーズに対処するために、分散ロバスト最適化 (DRO) のセットアップでは、さまざまなタスクにわたって均一に優れたパフォーマンスが求められます。
最近の多分布学習 (MDL) フレームワークは、学習者が各ターゲット分布にサンプリング アクセスできる環境との動的な相互作用でこの目的に取り組みます。
純粋探査のマルチアームバンディットの分野からインスピレーションを得て、私たちは MDL 体制で分布に依存する保証を提供します。これは準最適性のギャップに合わせて拡張し、既存の分布に依存しない分析と比較した場合にサンプルサイズへの優れた依存性をもたらします。
我々は、一様探索と不一様探索という 2 つの非適応戦略を調査し、経験的プロセス理論の新しいツールを使用して非漸近的リグレス限界を提示します。
さらに、マルチアームバンディットの文献における均一な割り当てと楽観的な割り当ての間のコントラストを反映して、ギャップへの依存性の強化を示す適応的楽観的アルゴリズムLCB-DRを考案しました。
要約(オリジナル)
To address the needs of modeling uncertainty in sensitive machine learning applications, the setup of distributionally robust optimization (DRO) seeks good performance uniformly across a variety of tasks. The recent multi-distribution learning (MDL) framework tackles this objective in a dynamic interaction with the environment, where the learner has sampling access to each target distribution. Drawing inspiration from the field of pure-exploration multi-armed bandits, we provide distribution-dependent guarantees in the MDL regime, that scale with suboptimality gaps and result in superior dependence on the sample size when compared to the existing distribution-independent analyses. We investigate two non-adaptive strategies, uniform and non-uniform exploration, and present non-asymptotic regret bounds using novel tools from empirical process theory. Furthermore, we devise an adaptive optimistic algorithm, LCB-DR, that showcases enhanced dependence on the gaps, mirroring the contrast between uniform and optimistic allocation in the multi-armed bandit literature.
arxiv情報
著者 | Rafael Hanashiro,Patrick Jaillet |
発行日 | 2023-12-20 15:50:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google