要約
私たちは、状態空間全体にわたる有効な確率分布を保証するために多項ロジット (MNL) 関数近似を採用する新しいクラスの MDP を研究します。
非線形関数を組み込むと、その大きな利点にもかかわらず、統計効率と計算効率の両方において大きな課題が生じます。
Hwang and Oh [2023] の最もよく知られた結果は、$\widetilde{\mathcal{O}}(\kappa^{-1}dH^2\sqrt{K})$ 後悔の上限に達しました。
kappa$ は問題依存の量、$d$ は特徴の次元、$H$ はエピソードの長さ、$K$ はエピソードの数です。
しかし、$\kappa^{-1}$ は到達可能な状態の数に多項式の依存性を示し、最悪の場合には状態空間のサイズと同じくらい大きくなり、関数近似の動機が損なわれることがわかります。
さらに、彼らの方法ではすべての履歴データを保存する必要があり、時間の複雑さはエピソード数に比例して増加するため、計算コストが高くなります。
この研究では、$\widetilde{\mathcal{O}}(dH^2\sqrt{K} + \kappa^{-1}d^2H^2)$ の後悔を達成する統計的に効率的なアルゴリズムを提案します。
支配項における $\kappa^{-1}$ への依存性が初めて排除されました。
次に、一定のコストのみで同じリグレス保証を実現する強化されたアルゴリズムを導入することで、計算上の課題に対処します。
最後に、この問題の最初の下限を確立し、$d$ と $K$ の結果の最適性を正当化します。
要約(オリジナル)
We study a new class of MDPs that employs multinomial logit (MNL) function approximation to ensure valid probability distributions over the state space. Despite its significant benefits, incorporating the non-linear function raises substantial challenges in both statistical and computational efficiency. The best-known result of Hwang and Oh [2023] has achieved an $\widetilde{\mathcal{O}}(\kappa^{-1}dH^2\sqrt{K})$ regret upper bound, where $\kappa$ is a problem-dependent quantity, $d$ is the feature dimension, $H$ is the episode length, and $K$ is the number of episodes. However, we observe that $\kappa^{-1}$ exhibits polynomial dependence on the number of reachable states, which can be as large as the state space size in the worst case and thus undermines the motivation for function approximation. Additionally, their method requires storing all historical data and the time complexity scales linearly with the episode count, which is computationally expensive. In this work, we propose a statistically efficient algorithm that achieves a regret of $\widetilde{\mathcal{O}}(dH^2\sqrt{K} + \kappa^{-1}d^2H^2)$, eliminating the dependence on $\kappa^{-1}$ in the dominant term for the first time. We then address the computational challenges by introducing an enhanced algorithm that achieves the same regret guarantee but with only constant cost. Finally, we establish the first lower bound for this problem, justifying the optimality of our results in $d$ and $K$.
arxiv情報
著者 | Long-Fei Li,Yu-Jie Zhang,Peng Zhao,Zhi-Hua Zhou |
発行日 | 2025-01-16 14:45:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google