要約
我々は、身体化されたナビゲーションのための長いシーケンス表現を抽出するための方法である、身体化されたナビゲーション軌跡学習器(ENTL)を提案します。
私たちのアプローチは、世界のモデリング、ローカリゼーション、および模倣学習を単一のシーケンス予測タスクに統合します。
現在の状態とアクションを条件とした将来の状態のベクトル量子化予測を使用してモデルをトレーニングします。
ENTL の汎用アーキテクチャにより、複数の困難な具体化されたタスクに対する時空間シーケンス エンコーダの共有が可能になります。
強力なベースラインよりも大幅に少ないデータを使用して、ローカリゼーションや将来のフレーム予測 (ワールド モデリングのプロキシ) などの補助タスクを実行しながら、ナビゲーション タスクで競争力のあるパフォーマンスを達成します。
私たちのアプローチの重要な特性は、モデルが明示的な報酬シグナルなしで事前トレーニングされるため、結果として得られるモデルが複数のタスクや環境に一般化できることです。
要約(オリジナル)
We propose Embodied Navigation Trajectory Learner (ENTL), a method for extracting long sequence representations for embodied navigation. Our approach unifies world modeling, localization and imitation learning into a single sequence prediction task. We train our model using vector-quantized predictions of future states conditioned on current states and actions. ENTL’s generic architecture enables sharing of the spatio-temporal sequence encoder for multiple challenging embodied tasks. We achieve competitive performance on navigation tasks using significantly less data than strong baselines while performing auxiliary tasks such as localization and future frame prediction (a proxy for world modeling). A key property of our approach is that the model is pre-trained without any explicit reward signal, which makes the resulting model generalizable to multiple tasks and environments.
arxiv情報
著者 | Klemen Kotar,Aaron Walsman,Roozbeh Mottaghi |
発行日 | 2023-09-29 15:11:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google