要約
将来のシーンの表現を予測することは、ロボットが環境を理解して対話できるようにするための重要なタスクです。
ただし、ほとんどの既存の方法は、正確なアクション注釈を備えたビデオとシミュレーションに依存しており、利用可能な大量の非標識ビデオデータを活用する能力を制限しています。
この課題に対処するために、オブジェクト中心のビデオ予測モデルであるPlayslotを提案します。これは、オブジェクト表現と潜在的なアクションを非標識ビデオシーケンスから推進します。
次に、これらの表現を使用して、将来のオブジェクト状態とビデオフレームを予測します。
Playslotは、ユーザーが提供するビデオダイナミクスから推測できる、または学習したアクションポリシーによって生成されるため、多目的で解釈可能な世界モデリングを可能にする潜在的なアクションに条件付けられた複数の可能な先物の生成を可能にします。
私たちの結果は、プレイスロットが、さまざまな環境でビデオ予測のために確率的およびオブジェクト中心の両方のベースラインよりも優れていることを示しています。
さらに、推測された潜在アクションを使用して、ラベルのないビデオデモンストレーションからロボットの動作をサンプル効率的に学習できることを示しています。
ビデオとコードは、https://play-slot.github.io/playslot/で入手できます。
要約(オリジナル)
Predicting future scene representations is a crucial task for enabling robots to understand and interact with the environment. However, most existing methods rely on videos and simulations with precise action annotations, limiting their ability to leverage the large amount of available unlabeled video data. To address this challenge, we propose PlaySlot, an object-centric video prediction model that infers object representations and latent actions from unlabeled video sequences. It then uses these representations to forecast future object states and video frames. PlaySlot allows the generation of multiple possible futures conditioned on latent actions, which can be inferred from video dynamics, provided by a user, or generated by a learned action policy, thus enabling versatile and interpretable world modeling. Our results show that PlaySlot outperforms both stochastic and object-centric baselines for video prediction across different environments. Furthermore, we show that our inferred latent actions can be used to learn robot behaviors sample-efficiently from unlabeled video demonstrations. Videos and code are available on https://play-slot.github.io/PlaySlot/.
arxiv情報
| 著者 | Angel Villar-Corrales,Sven Behnke | 
| 発行日 | 2025-05-21 12:44:50+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
