要約
物体目標ビジュアルナビゲーションは、ロボットの視覚的観察に基づいて目標物体を見つけるよう誘導することを目的とした難易度の高いタスクであり、その対象は学習段階で指定されたクラスに限定される。しかし、実家庭ではロボットが扱うべき物体クラスは多数存在する可能性があり、これら全てのクラスを学習段階に含めることは困難である。この課題を解決するために、我々はゼロショット物体ナビゲーションというタスクを提案する。これは、新規クラスに属する物体を、学習サンプルなしでロボットに発見させることを目的とするものである。この課題を解決するために、我々はゼロショット物体ナビゲーションのフレームワークも提案する。本フレームワークでは、単語を埋め込むことで得られるコサイン類似度と検出結果を入力として用いる。このような入力データはクラスとの相関が弱いため、我々のフレームワークは新しいクラスに対して方針を汎化する能力を持つ。AI2-THORフレームワークを用いた広範な実験により、我々のモデルはゼロショット物体ナビゲーションタスクにおいてベースラインモデルを上回る性能を示し、我々のモデルの汎化能力を証明することができた。我々のコードは、https://github.com/pioneer-innovation/Zero-Shot-Object-Navigation で公開されている。
要約(オリジナル)
Object goal visual navigation is a challenging task that aims to guide a robot to find the target object based on its visual observation, and the target is limited to the classes specified in the training stage. However, in real households, there may exist numerous object classes that the robot needs to deal with, and it is hard for all of these classes to be contained in the training stage. To address this challenge, we propose a task named zero-shot object navigation, which aims at guiding robots to find objects belonging to novel classes without any training samples. To this end, we also propose a novel zero-shot object navigation framework. Our framework use the detection results and the cosine similarity between semantic word embeddings as input. Such type of input data has a weak correlation with classes and thus our framework has the ability to generalize the policy to novel classes. Extensive experiments on the AI2-THOR framework show that our model outperforms the baseline models in the zero-shot object navigation task, which proves the the generalization ability of our model. Our code is available at: https://github.com/pioneer-innovation/Zero-Shot-Object-Navigation.
arxiv情報
著者 | Qianfan Zhao,Lu Zhang,Bin He,Hong Qiao,Zhiyong Liu |
発行日 | 2023-01-05 06:22:21+00:00 |
arxivサイト | arxiv_id(pdf) |