Scrutinize What We Ignore: Reining Task Representation Shift In Context-Based Offline Meta Reinforcement Learning

要約

オフライン メタ強化学習 (OMRL) は、事前に収集されたデータとメタ学習技術を活用することにより、インタラクション回避と強力な汎化パフォーマンスを実現する有望なアプローチとして浮上しました。
以前のコンテキストベースのアプローチは、主に、タスクとタスク表現 ($I(Z;M)$) の間の相互情報を最大化することがパフォーマンスの向上につながる可能性があるという直観に依存していました。
魅力的な結果を達成したにもかかわらず、そのような直感に対するパフォーマンス向上の理論的正当性は欠けています。
モデルベースの RL フィールドの収益不一致スキームを動機として、$I(Z;M)$ を最大化することは、最適なタスク表現を条件とする特定のポリシーの期待収益の下限を一貫して引き上げることと解釈できることがわかります。
ただし、この最適化プロセスでは、2 つの連続する更新間のタスク表現のシフトが無視されるため、パフォーマンス向上の崩壊につながる可能性があります。
この問題に対処するために、タスク表現の変化の影響を明示的に考慮するためにバインドされたパフォーマンス差のフレームワークを使用することにします。
タスク表現のシフトを抑制することで、単調なパフォーマンスの向上を達成できることを実証し、それによって以前のアプローチに対する利点を示します。
これを実用化するために、簡単でありながら非常に効果的なアルゴリズム RETRO (コンテキストベースの \underline{O}ffline メタ強化学習における \underline{RE} イニング \underline{T}ask \underline{R} 表現シフト) を設計します。
バックボーンと比較してコードが 1 行追加されます。
実証結果は、MuJoCo および MetaWorld ベンチマークでの最先端 (SOTA) の漸近パフォーマンス、トレーニングの安定性、およびトレーニング時間の消費を検証します。

要約(オリジナル)

Offline meta reinforcement learning (OMRL) has emerged as a promising approach for interaction avoidance and strong generalization performance by leveraging pre-collected data and meta-learning techniques. Previous context-based approaches predominantly rely on the intuition that maximizing the mutual information between the task and the task representation ($I(Z;M)$) can lead to performance improvements. Despite achieving attractive results, the theoretical justification of performance improvement for such intuition has been lacking. Motivated by the return discrepancy scheme in the model-based RL field, we find that maximizing $I(Z;M)$ can be interpreted as consistently raising the lower bound of the expected return for a given policy conditioning on the optimal task representation. However, this optimization process ignores the task representation shift between two consecutive updates, which may lead to performance improvement collapse. To address this problem, we turn to use the framework of performance difference bound to consider the impacts of task representation shift explicitly. We demonstrate that by reining the task representation shift, it is possible to achieve monotonic performance improvements, thereby showcasing the advantage against previous approaches. To make it practical, we design an easy yet highly effective algorithm RETRO (\underline{RE}ining \underline{T}ask \underline{R}epresentation shift in context-based \underline{O}ffline meta reinforcement learning) with only adding one line of code compared to the backbone. Empirical results validate its state-of-the-art (SOTA) asymptotic performance, training stability and training-time consumption on MuJoCo and MetaWorld benchmarks.

arxiv情報

著者 Hai Zhang,Boyuan Zheng,Anqi Guo,Tianying Ji,Pheng-Ann Heng,Junqiao Zhao,Lanqing Li
発行日 2024-05-20 13:14:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク