Where to Fetch: Extracting Visual Scene Representation from Large Pre-Trained Models for Robotic Goal Navigation

要約

ロボットが目標オブジェクトまでナビゲートしてそれを取得するという複雑なタスクを完了するには、ロボットが指示と周囲の環境をよく理解している必要があります。
大規模な事前トレーニング済みモデルは、言語記述によって定義されたタスクを解釈する機能を示しています。
ただし、大規模な事前トレーニング済みモデルを日常のタスクと統合しようとする以前の方法は、環境の理解が不十分なため、多くのロボットによる目標ナビゲーション タスクには適していません。
この研究では、自然言語クエリを処理できる環境の特徴表現を形成するために、大規模な視覚言語モデルを使用して構築されたビジュアル シーン表現を提示します。
この方法を大規模な言語モデルと組み合わせると、言語命令をロボットが従うアクション シーケンスに解析し、シーン表現をクエリして目標ナビゲーションを達成できます。
実験では、私たちの方法により、ロボットが幅広い指示に従い、複雑な目標ナビゲーションタスクを完了できることが実証されました。

要約(オリジナル)

To complete a complex task where a robot navigates to a goal object and fetches it, the robot needs to have a good understanding of the instructions and the surrounding environment. Large pre-trained models have shown capabilities to interpret tasks defined via language descriptions. However, previous methods attempting to integrate large pre-trained models with daily tasks are not competent in many robotic goal navigation tasks due to poor understanding of the environment. In this work, we present a visual scene representation built with large-scale visual language models to form a feature representation of the environment capable of handling natural language queries. Combined with large language models, this method can parse language instructions into action sequences for a robot to follow, and accomplish goal navigation with querying the scene representation. Experiments demonstrate that our method enables the robot to follow a wide range of instructions and complete complex goal navigation tasks.

arxiv情報

著者 Yu Li,Dayou Li,Chenkun Zhao,Ruifeng Wang,Ran Song,Wei Zhang
発行日 2024-08-20 06:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク