ACT-JEPA: Joint-Embedding Predictive Architecture Improves Policy Representation Learning


意思決定ポリシーの効率的な表現を学習することは、模倣学習 (IL) における課題です。
現在の IL 手法では専門家のデモンストレーションが必要であり、そのデモンストレーションを収集するには費用がかかります。
自己教師あり学習 (SSL) は、モデルが失敗を含むラベルのない多様なデータから学習できるようにすることで、代替手段を提供します。
ただし、SSL メソッドは生の入力空間で動作することが多く、非効率的です。
この研究では、IL と SSL を統合してポリシー表現を強化する新しいアーキテクチャである ACT-JEPA を提案します。
(1) アクション シーケンスと (2) 抽象的な観察シーケンスを予測するポリシーをトレーニングします。
2 番目の目的は、抽象的な観測シーケンスを予測することで、このチャンク化の考え方を拡張します。
私たちの実験は、ACT-JEPA が時間的環境ダイナミクスを学習することによって表現の品質を向上させることを示しています。
さらに、抽象的な観察シーケンスを予測するモデルの機能により、アクション シーケンスの予測を効果的に一般化する表現が得られます。
ACT-JEPA は、さまざまな意思決定タスクにわたって確立されたベースラインと同等のパフォーマンスを発揮します。


Learning efficient representations for decision-making policies is a challenge in imitation learning (IL). Current IL methods require expert demonstrations, which are expensive to collect. Consequently, they often have underdeveloped world models. Self-supervised learning (SSL) offers an alternative by allowing models to learn from diverse, unlabeled data, including failures. However, SSL methods often operate in raw input space, making them inefficient. In this work, we propose ACT-JEPA, a novel architecture that integrates IL and SSL to enhance policy representations. We train a policy to predict (1) action sequences and (2) abstract observation sequences. The first objective uses action chunking to improve action prediction and reduce compounding errors. The second objective extends this idea of chunking by predicting abstract observation sequences. We utilize Joint-Embedding Predictive Architecture to predict in abstract representation space, allowing the model to filter out irrelevant details, improve efficiency, and develop a robust world model. Our experiments show that ACT-JEPA improves the quality of representations by learning temporal environment dynamics. Additionally, the model’s ability to predict abstract observation sequences results in representations that effectively generalize to action sequence prediction. ACT-JEPA performs on par with established baselines across a range of decision-making tasks.


著者 Aleksandar Vujinovic,Aleksandar Kovacevic
発行日 2025-01-24 16:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG パーマリンク