The Statistical Complexity of Interactive Decision Making

要約

バンディット問題から強化学習に至るまで、対話型学習と意思決定における基本的な課題は、最適に近いリグアランスを実現するサンプル効率の高い適応学習アルゴリズムを提供することです。
この質問は、最適 (教師あり) 統計学習の古典的な問題に似ています。ここでは、学習の統計的複雑さを支配するよく知られた複雑さの尺度 (VC 次元や Rademacher 複雑さなど) が存在します。
ただし、対話型学習の統計的複雑さを特徴付けることは、問題の適応的な性質により、かなり困難です。
この研究の主な結果は、複雑さの尺度である決定推定係数を提供します。これは、サンプル効率の高い対話型学習に必要かつ十分であることが証明されています。
特に、以下を提供します。 1. 対話型の意思決定問題に対する最適なリグレスの下限を設定し、決定推定係数を基本的な制限として確立します。
2. 統一されたアルゴリズム設計原則、Estimation-to-Decisions (E2D)。教師あり推定のアルゴリズムを意思決定用のオンライン アルゴリズムに変換します。
E2D は、推定パフォーマンスの概念に依存する下限と一致するリグレス限界を達成し、それによって、決定推定係数によって特徴付けられる最適なサンプル効率の学習を実現します。
これらの結果を総合すると、対話型の意思決定のための学習可能性の理論が構成されます。
強化学習設定に適用すると、決定推定係数は基本的にすべての既存の硬度結果と下限を回復します。
より広く言えば、このアプローチは、統計的推定の古典的なル・カム理論の決定理論的類似物とみなすことができます。
また、ベイズ主義と頻度主義の両方の、多くの既存のアプローチを統合します。

要約(オリジナル)

A fundamental challenge in interactive learning and decision making, ranging from bandit problems to reinforcement learning, is to provide sample-efficient, adaptive learning algorithms that achieve near-optimal regret. This question is analogous to the classical problem of optimal (supervised) statistical learning, where there are well-known complexity measures (e.g., VC dimension and Rademacher complexity) that govern the statistical complexity of learning. However, characterizing the statistical complexity of interactive learning is substantially more challenging due to the adaptive nature of the problem. The main result of this work provides a complexity measure, the Decision-Estimation Coefficient, that is proven to be both necessary and sufficient for sample-efficient interactive learning. In particular, we provide: 1. a lower bound on the optimal regret for any interactive decision making problem, establishing the Decision-Estimation Coefficient as a fundamental limit. 2. a unified algorithm design principle, Estimation-to-Decisions (E2D), which transforms any algorithm for supervised estimation into an online algorithm for decision making. E2D attains a regret bound that matches our lower bound up to dependence on a notion of estimation performance, thereby achieving optimal sample-efficient learning as characterized by the Decision-Estimation Coefficient. Taken together, these results constitute a theory of learnability for interactive decision making. When applied to reinforcement learning settings, the Decision-Estimation Coefficient recovers essentially all existing hardness results and lower bounds. More broadly, the approach can be viewed as a decision-theoretic analogue of the classical Le Cam theory of statistical estimation; it also unifies a number of existing approaches — both Bayesian and frequentist.

arxiv情報

著者 Dylan J. Foster,Sham M. Kakade,Jian Qian,Alexander Rakhlin
発行日 2023-07-11 16:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.ST, stat.ML, stat.TH パーマリンク