ENTL: Embodied Navigation Trajectory Learner


タイトル:ENTL: 体験的ナビゲーション軌跡学習者


– 「ENTL」は、体験的ナビゲーションの長いシーケンスを表現するための手法であり、ワールドモデリング、ローカリゼーション、およびイミテーション学習を単一のシーケンス予測タスクに統合することができます。
– 現在の状態とアクションに依存する未来の状態の量子化された予測を用いて、モデルをトレーニングします。
– ENTLの汎用的なアーキテクチャにより、複数の難しい体験的課題に対して、時空間シーケンスエンコーダを共有することができます。
– 我々は、強力なベースラインよりもはるかに少ないデータを使用してナビゲーションタスクに競争力のあるパフォーマンスを達成し、ローカリゼーションや将来のフレーム予測(ワールドモデリングの代理)などの補助タスクも実行します。
– 私たちのアプローチの重要な特徴は、モデルが任意の明示的な報酬シグナルなしで事前にトレーニングされ、その結果として得られたモデルが複数のタスクと環境に汎用的になることです。


We propose Embodied Navigation Trajectory Learner (ENTL), a method for extracting long sequence representations for embodied navigation. Our approach unifies world modeling, localization and imitation learning into a single sequence prediction task. We train our model using vector-quantized predictions of future states conditioned on current states and actions. ENTL’s generic architecture enables the sharing of the the spatio-temporal sequence encoder for multiple challenging embodied tasks. We achieve competitive performance on navigation tasks using significantly less data than strong baselines while performing auxiliary tasks such as localization and future frame prediction (a proxy for world modeling). A key property of our approach is that the model is pre-trained without any explicit reward signal, which makes the resulting model generalizable to multiple tasks and environments.


著者 Klemen Kotar,Aaron Walsman,Roozbeh Mottaghi
発行日 2023-04-05 17:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.RO パーマリンク