GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic Manipulation

要約

言語誘導ロボット操作 (LGRM) は、ロボットが日常の物体を操作するために人間の指示を理解する必要があるため、困難なタスクです。
LGRM の最近のアプローチは、事前トレーニングされた Visual Grounding (VG) モデルに依存し、操作環境に適応することなくオブジェクトを検出します。
これにより、トレーニング前のデータと現実世界のデータの間に大きなドメインのギャップが生じ、パフォーマンスが低下します。
簡単な解決策は追加のトレーニング データを収集することですが、人間によるアノテーションのコストは法外です。
この論文では、人間の監督なしで VG を継続的に学習する LGRM の生涯学習フレームワークである Grounding Vision to Ceaseless Created 命令 (GVCCI) を提案します。
GVCCI は、オブジェクト検出を通じて合成命令を繰り返し生成し、生成されたデータを使用して VG モデルをトレーニングします。
さまざまな VG モデルのさまざまな環境にわたって、オフラインおよびオンライン設定でフレームワークを検証します。
実験結果は、GVCCI からの合成データを蓄積すると、VG が最大 56.7% 着実に改善され、結果として得られる LGRM が最大 29.4% 改善されることを示しています。
さらに、定性分析では、適応されていない VG モデルは、トレーニング前のデータから学習した強いバイアスにより、正しいオブジェクトを見つけることができないことが多いことが示されています。
最後に、LGRM 用の新しい VG データセットを紹介します。これは、さまざまな操作環境からの画像オブジェクト命令の約 252,000 個のトリプレットで構成されています。

要約(オリジナル)

Language-Guided Robotic Manipulation (LGRM) is a challenging task as it requires a robot to understand human instructions to manipulate everyday objects. Recent approaches in LGRM rely on pre-trained Visual Grounding (VG) models to detect objects without adapting to manipulation environments. This results in a performance drop due to a substantial domain gap between the pre-training and real-world data. A straightforward solution is to collect additional training data, but the cost of human-annotation is extortionate. In this paper, we propose Grounding Vision to Ceaselessly Created Instructions (GVCCI), a lifelong learning framework for LGRM, which continuously learns VG without human supervision. GVCCI iteratively generates synthetic instruction via object detection and trains the VG model with the generated data. We validate our framework in offline and online settings across diverse environments on different VG models. Experimental results show that accumulating synthetic data from GVCCI leads to a steady improvement in VG by up to 56.7% and improves resultant LGRM by up to 29.4%. Furthermore, the qualitative analysis shows that the unadapted VG model often fails to find correct objects due to a strong bias learned from the pre-training data. Finally, we introduce a novel VG dataset for LGRM, consisting of nearly 252k triplets of image-object-instruction from diverse manipulation environments.

arxiv情報

著者 Junghyun Kim,Gi-Cheon Kang,Jaein Kim,Suyeon Shin,Byoung-Tak Zhang
発行日 2023-07-12 07:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク