Switching Head-Tail Funnel UNITER for Dual Referring Expression Comprehension with Fetch-and-Carry Tasks

要約

この論文では、自由形式の自然言語命令に従って、日用品を取り出して指定された目的地まで運ぶ家庭用サービス ロボット (DSR) について説明します。
「皿の左側にある瓶を空いている椅子に移動させてください」などの指示が与えられると、DSRは環境内にある複数の候補の中から瓶と椅子を特定し、目的の物体を目的地まで運ぶことが期待されます。
既存のマルチモーダル言語理解手法のほとんどは、対象物体候補と目的地候補のすべての組み合わせについて推論を必要とするため、計算量の点で非現実的です。
我々は単一のモデルを用いて対象物体と目的地を個別に予測することで課題を解決するSwitching Head-Tail Funnel UNITERを提案する。
私たちの手法は、オブジェクト操作命令と、標準の Embodied AI シミュレーターでキャプチャされた半フォトリアリスティックな画像で構成される、新しく構築されたデータセットで検証されます。
結果は、言語理解の精度の点で、私たちの方法がベースライン方法よりも優れていることを示しています。
さらに、標準化された家庭環境において、DSRが参照表現による指示に従って、標準化された日常の物体を要求に応じて提供する物理実験を行います。
実験結果は、物体の掴みと配置の動作が 90% 以上の成功率で達成されることを示しています。

要約(オリジナル)

This paper describes a domestic service robot (DSR) that fetches everyday objects and carries them to specified destinations according to free-form natural language instructions. Given an instruction such as ‘Move the bottle on the left side of the plate to the empty chair,’ the DSR is expected to identify the bottle and the chair from multiple candidates in the environment and carry the target object to the destination. Most of the existing multimodal language understanding methods are impractical in terms of computational complexity because they require inferences for all combinations of target object candidates and destination candidates. We propose Switching Head-Tail Funnel UNITER, which solves the task by predicting the target object and the destination individually using a single model. Our method is validated on a newly-built dataset consisting of object manipulation instructions and semi photo-realistic images captured in a standard Embodied AI simulator. The results show that our method outperforms the baseline method in terms of language comprehension accuracy. Furthermore, we conduct physical experiments in which a DSR delivers standardized everyday objects in a standardized domestic environment as requested by instructions with referring expressions. The experimental results show that the object grasping and placing actions are achieved with success rates of more than 90%.

arxiv情報

著者 Ryosuke Korekata,Motonari Kambara,Yu Yoshida,Shintaro Ishikawa,Yosuke Kawasaki,Masaki Takahashi,Komei Sugiura
発行日 2023-07-14 05:27:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク