Compositional Zero-Shot Learning for Attribute-Based Object Reference in Human-Robot Interaction

要約

言語対応ロボットは、現実世界のさまざまなアプリケーションで人間とロボットの自然な対話やチーム化を可能にするために、ここ数年にわたって広く研究されてきました。
言語対応ロボットは、自然言語から抽出された一連の参照属性を使用して視覚から特定のオブジェクトを識別するための参照表現を理解できなければなりません。
ただし、オブジェクトを参照するときにそのオブジェクトを視覚的に観察できない場合があり、オープンワールドではオブジェクトと属性の数に制限がない場合もあります。
この課題に対処するために、属性のリストを使用してオープンワールドで参照表現の理解を実行する、属性ベースの構成ゼロショット学習方法を実装します。
MIT-States と Clothing 16K を含む 2 つのデータセットでアプローチを評価します。
予備的な実験結果は、私たちが実装したアプローチにより、ロボットが人間のコマンドによって参照されるオブジェクトを正確に識別できることを示しています。

要約(オリジナル)

Language-enabled robots have been widely studied over the past years to enable natural human-robot interaction and teaming in various real-world applications. Language-enabled robots must be able to comprehend referring expressions to identify a particular object from visual perception using a set of referring attributes extracted from natural language. However, visual observations of an object may not be available when it is referred to, and the number of objects and attributes may also be unbounded in open worlds. To address the challenges, we implement an attribute-based compositional zero-shot learning method that uses a list of attributes to perform referring expression comprehension in open worlds. We evaluate the approach on two datasets including the MIT-States and the Clothing 16K. The preliminary experimental results show that our implemented approach allows a robot to correctly identify the objects referred to by human commands.

arxiv情報

著者 Peng Gao,Ahmed Jaafar,Brian Reily,Christopher Reardon,Hao Zhang
発行日 2023-12-21 08:29:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク