要約
Transformerモデルの文脈内学習能力は、視覚ナビゲーションに新たな可能性をもたらした。本論文では、実際の環境にアクセスすることなく、オフラインで純粋に動画からコンテキスト内ナビゲーション方針を学習する必要がある、動画ナビゲーション設定に焦点を当てる。この設定のために、我々はNavigate Only Look Once (NOLO)を提案する。NOLOは、微調整や再学習を行うことなく、対応するコンテキスト動画を入力として、インコンテキスト能力を持ち、新しいシーンに適応するナビゲーションポリシーを学習する手法である。動画からの学習を可能にするために、まず、オプティカルフローを用いた擬似的な行動ラベリング手順を提案し、自己中心的な動画から行動ラベルを復元する。次に、オフライン強化学習を適用し、ナビゲーション方針を学習する。様々なシーンでの広範な実験を通して、我々のアルゴリズムがベースラインを大きく上回ることを示し、これは学習されたポリシーの文脈内学習能力を実証している。
要約(オリジナル)
The in-context learning ability of Transformer models has brought new possibilities to visual navigation. In this paper, we focus on the video navigation setting, where an in-context navigation policy needs to be learned purely from videos in an offline manner, without access to the actual environment. For this setting, we propose Navigate Only Look Once (NOLO), a method for learning a navigation policy that possesses the in-context ability and adapts to new scenes by taking corresponding context videos as input without finetuning or re-training. To enable learning from videos, we first propose a pseudo action labeling procedure using optical flow to recover the action label from egocentric videos. Then, offline reinforcement learning is applied to learn the navigation policy. Through extensive experiments on different scenes, we show that our algorithm outperforms baselines by a large margin, which demonstrates the in-context learning ability of the learned policy.
arxiv情報
著者 | Bohan Zhou,Jiangxing Wang,Zongqing Lu |
発行日 | 2024-08-02 16:41:34+00:00 |
arxivサイト | arxiv_id(pdf) |