Open-Vocabulary Mobile Manipulation Based on Double Relaxed Contrastive Learning with Dense Labeling

要約

人手不足の深刻化により、さまざまな環境を支援する家庭用サービスロボット(DSR)の需要が高まっています。
この研究では、オープンボキャブラリーの指示に基づいて、日常の物体を指定された家具まで輸送する DSR を開発します。
私たちのアプローチは、屋内環境の事前に収集された画像から対象物体と容器の画像を取得することに焦点を当てています。
たとえば、「金属製のタオル掛けに掛けられた右側の赤いタオルを取得して、左側の白い洗濯機に入れてください」という指示が与えられると、DSR は取得した画像に基づいて赤いタオルを洗濯機まで運ぶことが期待されます。

収集された何千もの画像から正しい画像を取得する必要があるため、これは困難です。収集された画像には、同様のタオルや器具の画像が多数含まれている可能性があります。
これに対処するために、陽性サンプル、ラベルのない陽性サンプル、および陰性サンプルの中から多様で堅牢な表現を学習する RelaX-Former を提案します。
私たちは、現実世界の屋内画像と、複雑な参照表現を含む人間による注釈付きの命令を含むデータセットで RelaX-Former を評価しました。
実験結果は、RelaX-Former が標準的な画像検索メトリクス全体で既存のベースライン モデルを上回るパフォーマンスを示したことを示しています。
さらに、DSR を使用して物理実験を実行し、ゼロショット転送設定でのアプローチのパフォーマンスを評価しました。
この実験では、DSR がオープンボキャブラリーの指示に基づいて物体を特定の容器に運ぶことが行われ、全体の成功率は 75% に達しました。

要約(オリジナル)

Growing labor shortages are increasing the demand for domestic service robots (DSRs) to assist in various settings. In this study, we develop a DSR that transports everyday objects to specified pieces of furniture based on open-vocabulary instructions. Our approach focuses on retrieving images of target objects and receptacles from pre-collected images of indoor environments. For example, given an instruction ‘Please get the right red towel hanging on the metal towel rack and put it in the white washing machine on the left,’ the DSR is expected to carry the red towel to the washing machine based on the retrieved images. This is challenging because the correct images should be retrieved from thousands of collected images, which may include many images of similar towels and appliances. To address this, we propose RelaX-Former, which learns diverse and robust representations from among positive, unlabeled positive, and negative samples. We evaluated RelaX-Former on a dataset containing real-world indoor images and human annotated instructions including complex referring expressions. The experimental results demonstrate that RelaX-Former outperformed existing baseline models across standard image retrieval metrics. Moreover, we performed physical experiments using a DSR to evaluate the performance of our approach in a zero-shot transfer setting. The experiments involved the DSR to carry objects to specific receptacles based on open-vocabulary instructions, achieving an overall success rate of 75%.

arxiv情報

著者 Daichi Yashima,Ryosuke Korekata,Komei Sugiura
発行日 2024-12-21 10:40:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク