Gesture-Informed Robot Assistance via Foundation Models

要約

ジェスチャーは、人間間の非言語コミュニケーションの基本的かつ重要な方法として機能します。
特に、言語的ジェスチャー (物体を指すなど) は、言語がアクセスできない、制限されている、または高度に専門化されている状況で、意図を効率的に表現する貴重な手段となります。
そのため、ロボットが人間の意図を推測し、ロボットとより効果的な連携を確立するには、ジェスチャーを理解することが不可欠です。
これまでの研究では、ジェスチャとその意味を手作業でコード化した厳格なライブラリに依存することがよくありました。
ただし、ジェスチャーの解釈は状況に依存することが多く、より柔軟で常識的な推論が必要になります。
この研究では、大規模な言語モデルの力を活用して、ジェスチャと言語の指示をより柔軟に解釈するためのフレームワーク GIRAF を提案します。
私たちのフレームワークは、人間の意図を正確に推測し、ジェスチャーの意味を文脈化して、人間とロボットのより効果的なコラボレーションを実現します。
私たちは、テーブルトップ操作タスクでの直接的なジェスチャを解釈するためのフレームワークをインスタンス化し、それが効果的であり、ユーザーに好まれていることを実証し、ベースラインよりも 70% 高い成功率を達成しました。
さらに、36 の異なるタスク シナリオで構成される GestureInstruct データセットをキュレーションすることにより、さまざまな種類のジェスチャについて推論する GIRAF の能力を実証します。
GIRAF は、GestureInstruct でタスクの正しい計画を見つける成功率 81% を達成しました。
ウェブサイト:https://tinyurl.com/giraf23

要約(オリジナル)

Gestures serve as a fundamental and significant mode of non-verbal communication among humans. Deictic gestures (such as pointing towards an object), in particular, offer valuable means of efficiently expressing intent in situations where language is inaccessible, restricted, or highly specialized. As a result, it is essential for robots to comprehend gestures in order to infer human intentions and establish more effective coordination with them. Prior work often rely on a rigid hand-coded library of gestures along with their meanings. However, interpretation of gestures is often context-dependent, requiring more flexibility and common-sense reasoning. In this work, we propose a framework, GIRAF, for more flexibly interpreting gesture and language instructions by leveraging the power of large language models. Our framework is able to accurately infer human intent and contextualize the meaning of their gestures for more effective human-robot collaboration. We instantiate the framework for interpreting deictic gestures in table-top manipulation tasks and demonstrate that it is both effective and preferred by users, achieving 70% higher success rates than the baseline. We further demonstrate GIRAF’s ability on reasoning about diverse types of gestures by curating a GestureInstruct dataset consisting of 36 different task scenarios. GIRAF achieved 81% success rate on finding the correct plan for tasks in GestureInstruct. Website: https://tinyurl.com/giraf23

arxiv情報

著者 Li-Heng Lin,Yuchen Cui,Yilun Hao,Fei Xia,Dorsa Sadigh
発行日 2023-09-06 05:10:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO パーマリンク