MO-VLN: A Multi-Task Benchmark for Open-set Zero-Shot Vision-and-Language Navigation

要約

一般的なロボットは自然言語が与えられると、その命令を理解し、たとえ未踏の環境であっても目視に基づいて目標の物体や場所を見つけなければなりません。
ほとんどのエージェントは、より適切な汎化を達成するために大量の多様なトレーニング データに依存しており、それには高価な労力が必要です。
これらのエージェントは、多くの場合、共通のオブジェクトと少数のタスクに焦点を当てているため、さまざまな種類の命令を処理できるほどインテリジェントではありません。
オープンセットの視覚と言語によるナビゲーションの研究を促進するために、マルチタスク設定におけるエージェントの有効性と一般化をテストすることを目的とした、MO-VLN というベンチマークを提案します。
まず、Unreal Engine 5 を使用して現実的なシナリオによってレンダリングされ、より現実的なライトと詳細を含む 3D シミュレーターを開発します。
シミュレーターには業界価値の高いカフェ、レストラン、老人ホームの3つのシーンが収録されています。
さらに、私たちのシミュレーターには、テイクアウト カップや医療用粘着テープなど、既存の環境に比べて複雑な複数の珍しいオブジェクトが含まれています。
大規模言語モデル (ChatGPT、Vicuna など) の最近の成功に触発され、人間による注釈を使用せずに命令タイプの多様な高品質データを構築します。
私たちのベンチマーク MO-VLN は 4 つのタスクを提供します。 1) 特定のオブジェクト カテゴリ (例: 「フォーク」) を指定した目標条件付きナビゲーション。
2) 簡単な指示が与えられた目標条件付きナビゲーション (例: 「テニス ボールを探してそれに向かって移動する」)。
3) 以下のステップバイステップの指示。
4) 高レベルの指示に基づいて抽象オブジェクトを見つける (例: 「喉が渇いた」)。

要約(オリジナル)

Given a natural language, a general robot has to comprehend the instruction and find the target object or location based on visual observations even in unexplored environments. Most agents rely on massive diverse training data to achieve better generalization, which requires expensive labor. These agents often focus on common objects and fewer tasks, thus are not intelligent enough to handle different types of instructions. To facilitate research in open-set vision-and-language navigation, we propose a benchmark named MO-VLN, aiming at testing the effectiveness and generalization of the agent in the multi-task setting. First, we develop a 3D simulator rendered by realistic scenarios using Unreal Engine 5, containing more realistic lights and details. The simulator contains three scenes, i.e., cafe, restaurant, and nursing house, of high value in the industry. Besides, our simulator involves multiple uncommon objects, such as takeaway cup and medical adhesive tape, which are more complicated compared with existing environments. Inspired by the recent success of large language models (e.g., ChatGPT, Vicuna), we construct diverse high-quality data of instruction type without human annotation. Our benchmark MO-VLN provides four tasks: 1) goal-conditioned navigation given a specific object category (e.g., ‘fork’); 2) goal-conditioned navigation given simple instructions (e.g., ‘Search for and move towards a tennis ball’); 3) step-by-step instruction following; 4) finding abstract object based on high-level instruction (e.g., ‘I am thirsty’).

arxiv情報

著者 Xiwen Liang,Liang Ma,Shanshan Guo,Jianhua Han,Hang Xu,Shikui Ma,Xiaodan Liang
発行日 2023-09-26 05:18:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク