Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning

要約

オフライン RL とメタ RL の融合として、オフライン メタ強化学習 (OMRL) の出現により、RL エージェントが安全に知識を取得しながらマルチタスクを実行し、迅速に適応できるようにするという大きな可能性が示されています。
中でも、コンテキストベースの OMRL (COMRL) は人気のあるパラダイムであり、効果的なタスク表現を条件とした普遍的なポリシーを学習することを目的としています。
この研究では、COMRL の分野におけるいくつかの主要なマイルストーンを調査することにより、これらの一見独立した方法論を統一されたフレームワークに統合することを提案します。
最も重要なことは、既存の COMRL アルゴリズムが、さまざまな近似限界を実装することによって、タスク変数 $M$ とその潜在表現 $Z$ の間の同じ相互情報量目標を本質的に最適化していることを示していることです。
このような理論的な洞察により、新しいアルゴリズムに十分な設計の自由度が提供されます。
デモンストレーションとして、$I(Z; M)$ の教師ありおよび自己教師ありの実装を提案し、対応する最適化アルゴリズムが、RL ベンチマーク、コンテキスト シフト シナリオ、データ品質、および深いレベルの広範囲にわたって顕著な一般化を示すことを経験的に示します。
アーキテクチャを学ぶこと。
この研究は COMRL 手法の情報理論的基礎を築き、強化学習のコンテキストにおけるタスク表現学習のより深い理解につながります。
その一般性を考慮して、私たちは私たちのフレームワークが意思決定のための基礎モデルの有望なオフライン事前トレーニングパラダイムであると構想しています。

要約(オリジナル)

As a marriage between offline RL and meta-RL, the advent of offline meta-reinforcement learning (OMRL) has shown great promise in enabling RL agents to multi-task and quickly adapt while acquiring knowledge safely. Among which, context-based OMRL (COMRL) as a popular paradigm, aims to learn a universal policy conditioned on effective task representations. In this work, by examining several key milestones in the field of COMRL, we propose to integrate these seemingly independent methodologies into a unified framework. Most importantly, we show that the pre-existing COMRL algorithms are essentially optimizing the same mutual information objective between the task variable $M$ and its latent representation $Z$ by implementing various approximate bounds. Such theoretical insight offers ample design freedom for novel algorithms. As demonstrations, we propose a supervised and a self-supervised implementation of $I(Z; M)$, and empirically show that the corresponding optimization algorithms exhibit remarkable generalization across a broad spectrum of RL benchmarks, context shift scenarios, data qualities and deep learning architectures. This work lays the information theoretic foundation for COMRL methods, leading to a better understanding of task representation learning in the context of reinforcement learning. Given its generality, we envision our framework as a promising offline pre-training paradigm of foundation models for decision making.

arxiv情報

著者 Lanqing Li,Hai Zhang,Xinyu Zhang,Shatong Zhu,Yang Yu,Junqiao Zhao,Pheng-Ann Heng
発行日 2025-01-13 14:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク