要約
平均結果が選択されたアクションの非線形関数である逐次的意思決定問題を検討します。
線形モデルと比較すると、非線形モデルでは 2 つの興味深い現象が発生します。まず、推定または後悔のための標準的なパラメトリック率による「学習段階」に加えて、固定費が決定される「バーンイン期間」があります。
非線形関数によって;
次に、最小のバーンイン コストを達成するには、新しい探索アルゴリズムが必要です。
文献でリッジ関数と呼ばれる非線形関数の特別なファミリについて、最適なバーンイン コストの上限と下限を導き出し、さらに、微分方程式を介してバーンイン期間中の学習軌跡全体を導き出します。
特に、最初に適切な初期アクションを見つけてから、問題を局所線形として扱う 2 段階のアルゴリズムが統計的に最適です。
対照的に、UCB や回帰オラクルに依存するアルゴリズムなどのいくつかの古典的なアルゴリズムは、最適ではないことが証明されています。
要約(オリジナル)
We consider the sequential decision-making problem where the mean outcome is a non-linear function of the chosen action. Compared with the linear model, two curious phenomena arise in non-linear models: first, in addition to the ‘learning phase’ with a standard parametric rate for estimation or regret, there is an ‘burn-in period’ with a fixed cost determined by the non-linear function; second, achieving the smallest burn-in cost requires new exploration algorithms. For a special family of non-linear functions named ridge functions in the literature, we derive upper and lower bounds on the optimal burn-in cost, and in addition, on the entire learning trajectory during the burn-in period via differential equations. In particular, a two-stage algorithm that first finds a good initial action and then treats the problem as locally linear is statistically optimal. In contrast, several classical algorithms, such as UCB and algorithms relying on regression oracles, are provably suboptimal.
arxiv情報
著者 | Nived Rajaraman,Yanjun Han,Jiantao Jiao,Kannan Ramchandran |
発行日 | 2023-03-14 17:23:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google