要約
既存のオフライン内コンテキスト補強学習(ICRL)メソッドは、主にオフラインRL設定に制限があることが知られている監視されたトレーニング目標に依存しています。
この研究では、オフラインのICRLフレームワーク内でのRL目標の統合を調査します。
150を超えるGridworldおよびMujoco環境由来のデータセットでの実験を通じて、RL目標を最適化することで、さまざまなデータセットカバレッジ、構造、専門知識レベル、環境の複雑さにわたって、広く採用されたアルゴリズム蒸留(AD)と比較して、パフォーマンスが平均で約30%向上することを実証します。
さらに、挑戦的なXland-minigrid環境では、RLの目標がADのパフォーマンスを2倍にしました。
また、私たちの結果は、価値学習中に保守主義を追加すると、テストされたほぼすべての設定で追加の改善がもたらされることが明らかになりました。
私たちの調査結果は、ICRL学習目標をRL報酬最大化目標に合わせることの重要性を強調し、オフラインRLがICRLを進めるための有望な方向であることを示しています。
要約(オリジナル)
Existing offline in-context reinforcement learning (ICRL) methods have predominantly relied on supervised training objectives, which are known to have limitations in offline RL settings. In this study, we explore the integration of RL objectives within an offline ICRL framework. Through experiments on more than 150 GridWorld and MuJoCo environment-derived datasets, we demonstrate that optimizing RL objectives directly improves performance by approximately 30% on average compared to widely adopted Algorithm Distillation (AD), across various dataset coverages, structures, expertise levels, and environmental complexities. Furthermore, in the challenging XLand-MiniGrid environment, RL objectives doubled the performance of AD. Our results also reveal that the addition of conservatism during value learning brings additional improvements in almost all settings tested. Our findings emphasize the importance of aligning ICRL learning objectives with the RL reward-maximization goal, and demonstrate that offline RL is a promising direction for advancing ICRL.
arxiv情報
著者 | Denis Tarasov,Alexander Nikulin,Ilya Zisman,Albina Klepach,Andrei Polubarov,Nikita Lyubaykin,Alexander Derevyagin,Igor Kiselev,Vladislav Kurenkov |
発行日 | 2025-05-19 16:55:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google