Simple Emergent Action Representations from Multi-Task Policy Training

要約

深層強化学習における低レベルの感覚・運動信号は、画像観察や運動トルクのような高次元空間に存在するため、本質的に理解したり下流タスクに直接活用することは困難である。感覚表現は広範囲に研究されているが、運動動作の表現はまだ活発に探求されている分野である。本研究では、マルチタスク政策ネットワークが状態とタスクの埋め込みの両方を入力としたとき、意味のある行動表現を含む空間が出現することを明らかにする。また、その表現能力を向上させるために、適度な制約が付加される。したがって、補間または合成された埋め込みは、この空間内で高レベルのインタフェースとして機能し、意味のある行動シーケンスを実行するための指示をエージェントに与えることができる。提案するアクション表現は、アクション内補間やアクション間合成に有効であり、追加学習はほとんど必要ないことが実証された。さらに、本アプローチは、Mujoco運動タスクにおいて、強力なベースラインと比較して、優れたタスク適応能力を示すことがわかった。本研究は、効率的で適応性が高く、合成可能なRLのための行動表現学習という有望な方向性に光を当て、抽象的な行動計画や運動信号空間の理解の基礎を形成するものである。プロジェクトページ: https://sites.google.com/view/emergent-action-representation/

要約(オリジナル)

The low-level sensory and motor signals in deep reinforcement learning, which exist in high-dimensional spaces such as image observations or motor torques, are inherently challenging to understand or utilize directly for downstream tasks. While sensory representations have been extensively studied, the representations of motor actions are still an area of active exploration. Our work reveals that a space containing meaningful action representations emerges when a multi-task policy network takes as inputs both states and task embeddings. Moderate constraints are added to improve its representation ability. Therefore, interpolated or composed embeddings can function as a high-level interface within this space, providing instructions to the agent for executing meaningful action sequences. Empirical results demonstrate that the proposed action representations are effective for intra-action interpolation and inter-action composition with limited or no additional learning. Furthermore, our approach exhibits superior task adaptation ability compared to strong baselines in Mujoco locomotion tasks. Our work sheds light on the promising direction of learning action representations for efficient, adaptable, and composable RL, forming the basis of abstract action planning and the understanding of motor signal space. Project page: https://sites.google.com/view/emergent-action-representation/

arxiv情報

著者 Pu Hua,Yubei Chen,Huazhe Xu
発行日 2023-03-06 08:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク