要約
Interactive Object Grasping (IOG) は、人間とロボットの自然言語対話を通じて目的のオブジェクトを識別し、把握するタスクです。
現在の IOG システムは、人間のユーザーが最初にターゲット オブジェクトのカテゴリ (ボトルなど) を指定することを前提としています。
人間は目標を達成するためにコンテキストに依存して自分の意図を伝えることが多いプラグマティックスに触発され、新しい IOG タスクである Pragmatic-IOG と、対応するデータセットである Intention- Oriented Multi-modal Dialogue (IM-Dial) を導入します。
提案されたタスクシナリオでは、最初に意図指向の発話(例:「喉が渇いた」)がロボットに与えられます。
次に、ロボットは人間のユーザーと対話してターゲット オブジェクトを識別する必要があります。
我々は、タスク設定に基づいて、ユーザの意図を解釈して対象物体を把持する新しいロボットシステム、Pragmatic Object Grasping (PROGrasp) を提案します。
PROGrasp は、視覚的なグラウンディング、質問、オブジェクトの把握、そして最も重要な実用的な推論のための回答の解釈のためのモジュールを組み込むことによって、Pragmatic-IOG を実行します。
実験結果は、PROGrasp がオフライン (つまり、ターゲット オブジェクトの発見) 設定とオンライン (つまり、物理的なロボット アームを備えた IOG) 設定で効果的であることを示しています。
コードとデータは https://github.com/gicheonkang/prograsp で入手できます。
要約(オリジナル)
Interactive Object Grasping (IOG) is the task of identifying and grasping the desired object via human-robot natural language interaction. Current IOG systems assume that a human user initially specifies the target object’s category (e.g., bottle). Inspired by pragmatics, where humans often convey their intentions by relying on context to achieve goals, we introduce a new IOG task, Pragmatic-IOG, and the corresponding dataset, Intention-oriented Multi-modal Dialogue (IM-Dial). In our proposed task scenario, an intention-oriented utterance (e.g., ‘I am thirsty’) is initially given to the robot. The robot should then identify the target object by interacting with a human user. Based on the task setup, we propose a new robotic system that can interpret the user’s intention and pick up the target object, Pragmatic Object Grasping (PROGrasp). PROGrasp performs Pragmatic-IOG by incorporating modules for visual grounding, question asking, object grasping, and most importantly, answer interpretation for pragmatic inference. Experimental results show that PROGrasp is effective in offline (i.e., target object discovery) and online (i.e., IOG with a physical robot arm) settings. Code and data are available at https://github.com/gicheonkang/prograsp.
arxiv情報
著者 | Gi-Cheon Kang,Junghyun Kim,Jaein Kim,Byoung-Tak Zhang |
発行日 | 2024-03-13 07:27:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google