ENTL: Embodied Navigation Trajectory Learner

要約

タイトル:ENTL:具現化されたナビゲーション軌跡学習者

要約:

– ENTLは、具現化されたナビゲーションのための長いシーケンス表現を抽出する方法である。
– このアプローチは、ワールドモデリング、ローカリゼーション、および模倣学習を、単一のシーケンス予測タスクに統一する。
– 我々は、現在の状態とアクションに依存する未来の状態のベクトル量子化予測を使用して、モデルを訓練する。
– ENTLの汎用アーキテクチャは、複数の難しい具現化タスクに対して時空間的なシーケンスエンコーダを共有することを可能にする。
– 強力なベースラインに比べてはるかに少ないデータを使用して、具現化されたナビゲーションタスクで競争力のあるパフォーマンスを達成する一方、ローカリゼーションと未来フレーム予測(ワールドモデリングの代理)などの補助的なタスクを実行する。
– アプローチの重要な特性は、モデルが明示的な報酬信号なしで事前にトレーニングされるため、結果的に得られるモデルが複数のタスクと環境に汎用的であることである。

要約(オリジナル)

We propose Embodied Navigation Trajectory Learner (ENTL), a method for extracting long sequence representations for embodied navigation. Our approach unifies world modeling, localization and imitation learning into a single sequence prediction task. We train our model using vector-quantized predictions of future states conditioned on current states and actions. ENTL’s generic architecture enables sharing of the spatio-temporal sequence encoder for multiple challenging embodied tasks. We achieve competitive performance on navigation tasks using significantly less data than strong baselines while performing auxiliary tasks such as localization and future frame prediction (a proxy for world modeling). A key property of our approach is that the model is pre-trained without any explicit reward signal, which makes the resulting model generalizable to multiple tasks and environments.

arxiv情報

著者 Klemen Kotar,Aaron Walsman,Roozbeh Mottaghi
発行日 2023-04-07 00:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.RO パーマリンク