要約
オブジェクトの検索は、複雑な言語による説明 (例: 「テーブルの上の白いカップを見つける」) が与えられた場合、ロボットは環境内でカメラを移動し、記述されたオブジェクトを認識する必要があるため、困難なタスクです。
これまでの研究では、言語記述を所定のノイズ モデルを備えた一連の固定オブジェクト検出器にマッピングしていましたが、オブジェクトごとに新しい検出器を作成する必要があるため、これらのアプローチは拡張が困難でした。
この研究では、探索問題を部分観測可能なマルコフ決定プロセス (POMDP) として設定することで、現実的なオブジェクト検索のギャップを埋めます。POMDP では、観測モデル内のオブジェクト検出器と視覚センサーのノイズは、複雑な条件を条件とした単一のディープ ニューラル ネットワークによって決定されます。
言語の説明。
ニューラル ネットワークの出力を言語条件付き観測モデル (LCOM) に組み込み、動的に変化するセンサー ノイズを表現します。
LCOM を使用すると、オブジェクトの任意の言語記述を使用して、適切なオブジェクト検出器とノイズ モデルを生成できます。LCOM のトレーニングには、すぐに利用できる教師付き画像キャプション データセットのみが必要です。
私たちは、シミュレーションで最先端のオブジェクト検索アルゴリズムと比較することによって私たちの方法を経験的に評価し、観測モデルを使用して計画を立てると、平均タスク完了率が大幅に高く (0.46 から 0.66)、より効率的かつ迅速なオブジェクトが得られることを実証しました。
固定ノイズ モデルよりも検索が容易になります。
私たちは、Boston Dynamics Spot ロボットでこの方法を実証し、複雑な自然言語によるオブジェクトの記述を処理し、ルームスケール環境でオブジェクトを効率的に見つけることができるようにします。
要約(オリジナル)
Object search is a challenging task because when given complex language descriptions (e.g., ‘find the white cup on the table’), the robot must move its camera through the environment and recognize the described object. Previous works map language descriptions to a set of fixed object detectors with predetermined noise models, but these approaches are challenging to scale because new detectors need to be made for each object. In this work, we bridge the gap in realistic object search by posing the search problem as a partially observable Markov decision process (POMDP) where the object detector and visual sensor noise in the observation model is determined by a single Deep Neural Network conditioned on complex language descriptions. We incorporate the neural network’s outputs into our language-conditioned observation model (LCOM) to represent dynamically changing sensor noise. With an LCOM, any language description of an object can be used to generate an appropriate object detector and noise model, and training an LCOM only requires readily available supervised image-caption datasets. We empirically evaluate our method by comparing against a state-of-the-art object search algorithm in simulation, and demonstrate that planning with our observation model yields a significantly higher average task completion rate (from 0.46 to 0.66) and more efficient and quicker object search than with a fixed-noise model. We demonstrate our method on a Boston Dynamics Spot robot, enabling it to handle complex natural language object descriptions and efficiently find objects in a room-scale environment.
arxiv情報
著者 | Thao Nguyen,Vladislav Hrosinkov,Eric Rosen,Stefanie Tellex |
発行日 | 2023-09-13 19:30:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google