MO-DDN: A Coarse-to-Fine Attribute-based Exploration Agent for Multi-object Demand-driven Navigation

要約

日々の要求を満たすプロセスは、人間の日常生活の基本的な側面である。具現化されたAIの進歩により、ロボットが人間の要求を満たすことができるようになってきている。需要駆動型ナビゲーション(DDN)は、エージェントが「のどが渇いた」のような指定された要求命令を満たすために物体を見つけなければならないタスクである。これまでの研究では、各需要指示は満たすべきオブジェクトを1つだけ必要とし、個人の嗜好は考慮しないとするのが一般的である。しかし、現実的な人間の要求には複数の対象が含まれる可能性がある。本論文では、多オブジェクト探索と個人の嗜好を含む、このような微妙な側面を扱う多オブジェクト要求駆動ナビゲーション(MO-DDN)ベンチマークを紹介し、DDNと比較してMO-DDNタスクをより現実のシナリオに反映させる。これまでの研究を基に、我々はこの新しいタスクに取り組むために“属性”の概念を採用する。しかし、DDNのようにエンド・ツー・エンドで属性の特徴のみに依存するのではなく、粗い属性から細かい属性に基づく探索エージェント(C2FAgent)を構築するモジュール方式を提案する。我々の実験結果は、この粗から細への探索戦略が、様々な意思決定レベルにおいて属性の利点を活用し、ベースライン手法と比較して優れたパフォーマンスをもたらすことを示している。コードとビデオはhttps://sites.google.com/view/moddn。

要約(オリジナル)

The process of satisfying daily demands is a fundamental aspect of humans’ daily lives. With the advancement of embodied AI, robots are increasingly capable of satisfying human demands. Demand-driven navigation (DDN) is a task in which an agent must locate an object to satisfy a specified demand instruction, such as “I am thirsty.” The previous study typically assumes that each demand instruction requires only one object to be fulfilled and does not consider individual preferences. However, the realistic human demand may involve multiple objects. In this paper, we introduce the Multi-object Demand-driven Navigation (MO-DDN) benchmark, which addresses these nuanced aspects, including multi-object search and personal preferences, thus making the MO-DDN task more reflective of real-life scenarios compared to DDN. Building upon previous work, we employ the concept of “attribute” to tackle this new task. However, instead of solely relying on attribute features in an end-to-end manner like DDN, we propose a modular method that involves constructing a coarse-to-fine attribute-based exploration agent (C2FAgent). Our experimental results illustrate that this coarse-to-fine exploration strategy capitalizes on the advantages of attributes at various decision-making levels, resulting in superior performance compared to baseline methods. Code and video can be found at https://sites.google.com/view/moddn.

arxiv情報

著者 Hongcheng Wang,Peiqi Liu,Wenzhe Cai,Mingdong Wu,Zhengyu Qian,Hao Dong
発行日 2024-10-04 14:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク