要約
本論文では、オフライン強化学習(RL)とオフポリシー評価(OPE)を特殊なケースとして含む、オフライン意思決定問題に対する一般的な関数近似における最初の高速収束結果を提案する。異なる設定を統一するために、オフライン意思決定問題を幅広く捉える、オフラインフィードバックを用いた意思決定(DMOF)と呼ばれる枠組みを導入する。このフレームワークの中で、我々はEmpirical Decision with Divergence (EDD)と呼ばれるシンプルかつ強力なアルゴリズムを提案し、その上限はEmpirical Offline Estimation Coefficient (EOEC)と呼ばれる係数で表すことができる。EOECはインスタンス依存であり、実際には問題の相関を測定することを示す。データセットに部分的なカバレッジを仮定した場合、EOECは$1/N$の割合で減少する。最後に、上記の結果をDMOFの枠組みにおける下界で補完し、我々の理論の健全性をさらに証明する。
要約(オリジナル)
This paper proposes the first generic fast convergence result in general function approximation for offline decision making problems, which include offline reinforcement learning (RL) and off-policy evaluation (OPE) as special cases. To unify different settings, we introduce a framework called Decision Making with Offline Feedback (DMOF), which captures a wide range of offline decision making problems. Within this framework, we propose a simple yet powerful algorithm called Empirical Decision with Divergence (EDD), whose upper bound can be termed as a coefficient named Empirical Offline Estimation Coefficient (EOEC). We show that EOEC is instance-dependent and actually measures the correlation of the problem. When assuming partial coverage in the dataset, EOEC will reduce in a rate of $1/N$ where $N$ is the size of the dataset, endowing EDD with a fast convergence guarantee. Finally, we complement the above results with a lower bound in the DMOF framework, which further demonstrates the soundness of our theory.
arxiv情報
著者 | Chenjie Mao,Qiaosheng Zhang |
発行日 | 2024-12-03 18:32:15+00:00 |
arxivサイト | arxiv_id(pdf) |