STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation

要約

Off-Policy評価(OPE)は、行動ポリシーから収集されたオフラインデータを使用してターゲットポリシーのパフォーマンスを推定し、環境との直接的な相互作用が費用がかかるか安全でないロボット工学やヘルスケアなどのドメインで重要です。
既存のOPEメソッドは、学習したダイナミクスモデルからの重要度の重み付けまたは複合エラーからの異なる指数関数的な爆発により、高次元の長期の問題には効果がありません。
これらの課題に対処するために、高次元状態およびアクション空間で長老OPEの拡散を除去するモデルベースの生成フレームワークであるStitch-Opeを提案します。
動作データで事前に訓練された拡散モデルから始めて、Stitch-Opeは、ターゲットポリシーのスコア関数を使用して除去プロセスをガイドすることにより、ターゲットポリシーから合成軌跡を生成します。
Stitch-Opeは、OPEにとって有利になる2つの技術的な革新を提案します。(1)ガイダンス中に行動ポリシーのスコアを減算することにより、過剰な正規化を防ぎ、(2)部分的な軌跡をエンドツーエンドをつなぎ合わせることにより長距離軌跡を生成します。
穏やかな仮定の下で、これらの修正により、長期軌道の拡散との分散の指数関数的な減少がもたらされるという理論的保証を提供します。
D4RLおよびOpenaiジムのベンチマークでの実験は、最先端のOPEメソッドと比較して、平均四角誤差、相関、後悔の指標の大幅な改善を示しています。

要約(オリジナル)

Off-policy evaluation (OPE) estimates the performance of a target policy using offline data collected from a behavior policy, and is crucial in domains such as robotics or healthcare where direct interaction with the environment is costly or unsafe. Existing OPE methods are ineffective for high-dimensional, long-horizon problems, due to exponential blow-ups in variance from importance weighting or compounding errors from learned dynamics models. To address these challenges, we propose STITCH-OPE, a model-based generative framework that leverages denoising diffusion for long-horizon OPE in high-dimensional state and action spaces. Starting with a diffusion model pre-trained on the behavior data, STITCH-OPE generates synthetic trajectories from the target policy by guiding the denoising process using the score function of the target policy. STITCH-OPE proposes two technical innovations that make it advantageous for OPE: (1) prevents over-regularization by subtracting the score of the behavior policy during guidance, and (2) generates long-horizon trajectories by stitching partial trajectories together end-to-end. We provide a theoretical guarantee that under mild assumptions, these modifications result in an exponential reduction in variance versus long-horizon trajectory diffusion. Experiments on the D4RL and OpenAI Gym benchmarks show substantial improvement in mean squared error, correlation, and regret metrics compared to state-of-the-art OPE methods.

arxiv情報

著者 Hossein Goli,Michael Gimelfarb,Nathan Samuel de Lara,Haruki Nishimura,Masha Itkina,Florian Shkurti
発行日 2025-05-27 06:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク