Real-world Instance-specific Image Goal Navigation for Service Robots: Bridging the Domain Gap with Contrastive Learning

要約

クエリ画像から実世界環境内の同一オブジェクトの位置を特定するインスタンス固有の画像ゴール ナビゲーション (InstanceImageNav) の改善は、ユーザーが目的のオブジェクトを見つけるのを支援するロボット システムにとって不可欠です。
課題は、モーション ブラーと低解像度を特徴とする移動ロボットによって観察される低品質の画像と、ユーザーが提供する高品質のクエリ画像との間の領域ギャップにあります。
このようなドメインのギャップはタスクの成功率を大幅に低下させる可能性がありますが、これまでの研究では焦点になっていませんでした。
これに対処するために、Few-shot Cross-quality Instance-aware Adaptation (CrossIA) と呼ばれる新しい方法を提案します。この方法では、インスタンス分類器を使用した対照学習を使用して、大量の低品質画像と少数の高品質画像の間で特徴を調整します。
このアプローチは、インスタンス ベースで異品質画像の潜在表現を近づけることにより、ドメイン ギャップを効果的に削減します。
さらに、このシステムはオブジェクト画像コレクションを事前トレーニング済みのブレ除去モデルと統合して、観察画像の品質を向上させます。
私たちの方法では、CrossIA を使用して、ImageNet で事前トレーニングされた SimSiam モデルを微調整します。
私たちは、20 種類の異なるインスタンスを使用した InstanceImageNav タスクを通じてメソッドの有効性を評価しました。このタスクでは、ロボットが実世界の同じインスタンスを高品質のクエリ画像として識別します。
私たちの実験では、SuperGlue に基づく従来のアプローチであるベースラインと比較して、タスクの成功率が最大 3 倍向上することがわかりました。
これらの発見は、ロボットアプリケーションにおける領域のギャップを埋め、オブジェクトの位置特定を改善するために、コントラスト学習と画像強調技術を活用する可能性を強調しています。
プロジェクトの Web サイトは https://emergentsystemlabstudent.github.io/DomainBridgingNav/ です。

要約(オリジナル)

Improving instance-specific image goal navigation (InstanceImageNav), which locates the identical object in a real-world environment from a query image, is essential for robotic systems to assist users in finding desired objects. The challenge lies in the domain gap between low-quality images observed by the moving robot, characterized by motion blur and low-resolution, and high-quality query images provided by the user. Such domain gaps could significantly reduce the task success rate but have not been the focus of previous work. To address this, we propose a novel method called Few-shot Cross-quality Instance-aware Adaptation (CrossIA), which employs contrastive learning with an instance classifier to align features between massive low- and few high-quality images. This approach effectively reduces the domain gap by bringing the latent representations of cross-quality images closer on an instance basis. Additionally, the system integrates an object image collection with a pre-trained deblurring model to enhance the observed image quality. Our method fine-tunes the SimSiam model, pre-trained on ImageNet, using CrossIA. We evaluated our method’s effectiveness through an InstanceImageNav task with 20 different types of instances, where the robot identifies the same instance in a real-world environment as a high-quality query image. Our experiments showed that our method improves the task success rate by up to three times compared to the baseline, a conventional approach based on SuperGlue. These findings highlight the potential of leveraging contrastive learning and image enhancement techniques to bridge the domain gap and improve object localization in robotic applications. The project website is https://emergentsystemlabstudent.github.io/DomainBridgingNav/.

arxiv情報

著者 Taichi Sakaguchi,Akira Taniguchi,Yoshinobu Hagiwara,Lotfi El Hafi,Shoichi Hasegawa,Tadahiro Taniguchi
発行日 2024-04-15 10:24:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク