LangNav: Language as a Perceptual Representation for Navigation

要約

私たちは、低データ設定に焦点を当てて、視覚と言語のナビゲーション (VLN) のための知覚表現としての言語の使用を調査します。
私たちのアプローチでは、画像キャプションと物体検出に既製のビジョン システムを使用し、各タイム ステップでのエージェントの自己中心的なパノラマ ビューを自然言語の説明に変換します。
次に、事前トレーニングされた言語モデルを微調整して、現在のビューと軌跡の履歴に基づいて、ナビゲーション指示を最もよく満たすアクションを選択します。
事前トレーニングされた視覚モデルからの連続視覚特徴を直接操作するように事前トレーニングされた言語モデルを適応させる標準的なセットアップとは対照的に、私たちのアプローチでは代わりに(個別の)言語を知覚表現として使用します。
R2R VLN ベンチマークでの言語ベース ナビゲーション (LangNav) アプローチのいくつかのユース ケースを検討します。プロンプト言語モデル (GPT-4) から合成軌道を生成して、より小さな言語モデルを微調整します。
ドメイン転送では、あるシミュレートされた環境 (ALFRED) で学習したポリシーを別の (より現実的な) 環境 (R2R) に転送します。
そして、VLN の視覚ベースと言語ベースの両方の表現を組み合わせます。
私たちのアプローチは、少数の専門家の軌跡 (10 ~ 100) しか利用できない設定で視覚的特徴に依存するベースラインを改善することがわかり、ナビゲーションのための知覚表現としての言語の可能性を実証しています。

要約(オリジナル)

We explore the use of language as a perceptual representation for vision-and-language navigation (VLN), with a focus on low-data settings. Our approach uses off-the-shelf vision systems for image captioning and object detection to convert an agent’s egocentric panoramic view at each time step into natural language descriptions. We then finetune a pretrained language model to select an action, based on the current view and the trajectory history, that would best fulfill the navigation instructions. In contrast to the standard setup which adapts a pretrained language model to work directly with continuous visual features from pretrained vision models, our approach instead uses (discrete) language as the perceptual representation. We explore several use cases of our language-based navigation (LangNav) approach on the R2R VLN benchmark: generating synthetic trajectories from a prompted language model (GPT-4) with which to finetune a smaller language model; domain transfer where we transfer a policy learned on one simulated environment (ALFRED) to another (more realistic) environment (R2R); and combining both vision- and language-based representations for VLN. Our approach is found to improve upon baselines that rely on visual features in settings where only a few expert trajectories (10-100) are available, demonstrating the potential of language as a perceptual representation for navigation.

arxiv情報

著者 Bowen Pan,Rameswar Panda,SouYoung Jin,Rogerio Feris,Aude Oliva,Phillip Isola,Yoon Kim
発行日 2024-03-30 22:00:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク