要約
意思決定ポリシーの効率的な表現の学習は、模倣学習(IL)の課題です。
現在のILメソッドには、収集するのに費用がかかる専門家のデモが必要です。
その結果、彼らはしばしば未開発の世界モデルを持っています。
自己学習学習(SSL)は、障害を含む多様な非標識データからモデルが学習できるようにすることにより、代替手段を提供します。
ただし、SSLメソッドは多くの場合、生の入力空間で動作し、非効率的になります。
この作業では、ILとSSLを統合して政策表現を強化する新しいアーキテクチャであるAct-Jepaを提案します。
(1)アクションシーケンスと(2)抽象観察シーケンスを予測するためのポリシーをトレーニングします。
最初の目的では、アクションチャンキングを使用してアクション予測を改善し、複合エラーを減らします。
2番目の目的は、抽象観察シーケンスを予測することにより、チャンクのこのアイデアを拡張します。
共同整合の予測的アーキテクチャを利用して、抽象表現空間で予測し、モデルが無関係な詳細を除外し、効率を改善し、堅牢な世界モデルを開発できるようにします。
私たちの実験は、ACT-JEPAが時間的環境のダイナミクスを学習することにより表現の質を向上させることを示しています。
さらに、抽象観察シーケンスを予測するモデルの能力により、アクションシーケンス予測を効果的に一般化する表現が得られます。
Act-Jepaは、さまざまな意思決定タスクにわたって確立されたベースラインと同等に機能します。
要約(オリジナル)
Learning efficient representations for decision-making policies is a challenge in imitation learning (IL). Current IL methods require expert demonstrations, which are expensive to collect. Consequently, they often have underdeveloped world models. Self-supervised learning (SSL) offers an alternative by allowing models to learn from diverse, unlabeled data, including failures. However, SSL methods often operate in raw input space, making them inefficient. In this work, we propose ACT-JEPA, a novel architecture that integrates IL and SSL to enhance policy representations. We train a policy to predict (1) action sequences and (2) abstract observation sequences. The first objective uses action chunking to improve action prediction and reduce compounding errors. The second objective extends this idea of chunking by predicting abstract observation sequences. We utilize Joint-Embedding Predictive Architecture to predict in abstract representation space, allowing the model to filter out irrelevant details, improve efficiency, and develop a robust world model. Our experiments show that ACT-JEPA improves the quality of representations by learning temporal environment dynamics. Additionally, the model’s ability to predict abstract observation sequences results in representations that effectively generalize to action sequence prediction. ACT-JEPA performs on par with established baselines across a range of decision-making tasks.
arxiv情報
著者 | Aleksandar Vujinovic,Aleksandar Kovacevic |
発行日 | 2025-01-27 16:39:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google