ENTL: Embodied Navigation Trajectory Learner


ENTL の汎用アーキテクチャにより、複数の困難な具体化されたタスクに対する時空間シーケンス エンコーダの共有が可能になります。
強力なベースラインよりも大幅に少ないデータを使用して、ローカリゼーションや将来のフレーム予測 (ワールド モデリングのプロキシ) などの補助タスクを実行しながら、ナビゲーション タスクで競争力のあるパフォーマンスを達成します。


We propose Embodied Navigation Trajectory Learner (ENTL), a method for extracting long sequence representations for embodied navigation. Our approach unifies world modeling, localization and imitation learning into a single sequence prediction task. We train our model using vector-quantized predictions of future states conditioned on current states and actions. ENTL’s generic architecture enables sharing of the spatio-temporal sequence encoder for multiple challenging embodied tasks. We achieve competitive performance on navigation tasks using significantly less data than strong baselines while performing auxiliary tasks such as localization and future frame prediction (a proxy for world modeling). A key property of our approach is that the model is pre-trained without any explicit reward signal, which makes the resulting model generalizable to multiple tasks and environments.


著者 Klemen Kotar,Aaron Walsman,Roozbeh Mottaghi
発行日 2023-09-29 15:11:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク