要約
ビジョン言語モデル (VLM) は、論理的推論から視覚的な理解まで、さまざまなタスクにわたって優れた機能を示しています。
これにより、ロボット制御など、世界とのより豊かなインタラクションへの扉が開かれます。
ただし、VLM はテキスト出力のみを生成しますが、ロボット制御やその他の空間タスクでは、連続した座標、アクション、または軌道を出力する必要があります。
タスク固有のデータを微調整せずに、VLM がそのような設定を処理できるようにするにはどうすればよいでしょうか?
この論文では、タスクを反復的な視覚的質問応答としてキャストする、反復ビジュアル最適化によるプロンプト (PIVOT) と呼ばれる、VLM 用の新しい視覚的プロンプト アプローチを提案します。
各反復において、画像には、VLM が参照できる提案 (ロボットの動作候補、位置特定、軌道など) の視覚的表現が注釈として付けられます。
次に、VLM はタスクに最適なものを選択します。
これらの提案は繰り返し改良されるため、VLM は最終的に利用可能な最良の答えを絞り込むことができます。
私たちは、実世界のロボット ナビゲーション、画像からの実世界の操作、シミュレーションでの指示、および位置特定などの追加の空間推論タスクに関する PIVOT を調査します。
おそらく驚くべきことに、私たちのアプローチにより、ロボット トレーニング データなしでロボット システムのゼロショット制御、さまざまな環境でのナビゲーション、その他の機能が可能になることがわかりました。
現在のパフォーマンスは完璧には程遠いですが、私たちの研究はこの新しい体制の可能性と限界を浮き彫りにし、ロボットおよび空間推論ドメインにおけるインターネット スケールの VLM に対する有望なアプローチを示しています。
Web サイト: pivot-prompt.github.io および HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo。
要約(オリジナル)
Vision language models (VLMs) have shown impressive capabilities across a variety of tasks, from logical reasoning to visual understanding. This opens the door to richer interaction with the world, for example robotic control. However, VLMs produce only textual outputs, while robotic control and other spatial tasks require outputting continuous coordinates, actions, or trajectories. How can we enable VLMs to handle such settings without fine-tuning on task-specific data? In this paper, we propose a novel visual prompting approach for VLMs that we call Prompting with Iterative Visual Optimization (PIVOT), which casts tasks as iterative visual question answering. In each iteration, the image is annotated with a visual representation of proposals that the VLM can refer to (e.g., candidate robot actions, localizations, or trajectories). The VLM then selects the best ones for the task. These proposals are iteratively refined, allowing the VLM to eventually zero in on the best available answer. We investigate PIVOT on real-world robotic navigation, real-world manipulation from images, instruction following in simulation, and additional spatial inference tasks such as localization. We find, perhaps surprisingly, that our approach enables zero-shot control of robotic systems without any robot training data, navigation in a variety of environments, and other capabilities. Although current performance is far from perfect, our work highlights potentials and limitations of this new regime and shows a promising approach for Internet-Scale VLMs in robotic and spatial reasoning domains. Website: pivot-prompt.github.io and HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
arxiv情報
著者 | Soroush Nasiriany,Fei Xia,Wenhao Yu,Ted Xiao,Jacky Liang,Ishita Dasgupta,Annie Xie,Danny Driess,Ayzaan Wahid,Zhuo Xu,Quan Vuong,Tingnan Zhang,Tsang-Wei Edward Lee,Kuang-Huei Lee,Peng Xu,Sean Kirmani,Yuke Zhu,Andy Zeng,Karol Hausman,Nicolas Heess,Chelsea Finn,Sergey Levine,Brian Ichter |
発行日 | 2024-02-12 18:33:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google