DCIRNet: Depth Completion with Iterative Refinement for Dexterous Grasping of Transparent and Reflective Objects

要約

日常の環境での透明で反射的なオブジェクトは、鏡面反射や光伝達などの独自の視覚特性により、深さセンサーに大きな課題をもたらします。
これらの特性は、しばしば不完全または不正確な深度推定につながります。これは、オブジェクト認識、シーンの再構築、ロボット操作など、下流の幾何学ベースのビジョンタスクに深刻な影響を与えます。
透明性および反射オブジェクトの深度情報の欠落の問題に対処するために、RGB画像と深さマップを効果的に統合して深度推定品質を高める新しいマルチモーダル深度完了ネットワークであるDCIRNETを提案します。
このアプローチには、RGB画像と不完全な深度マップ間で補完的な情報を抽出するように設計された革新的なマルチモーダル機能融合モジュールが組み込まれています。
さらに、深さの完了を徐々に改善し、ぼやけたオブジェクトの境界の問題を効果的に軽減するマルチステージの監督と深度改良戦略を導入します。
深さ完了モデルを器用なグラッシングフレームワークに統合し、透明で反射的なオブジェクトの把握成功率の44ドルの改善を達成します。
DCIRNETが優れたパフォーマンスを示しているパブリックデータセットで広範な実験を実施します。
実験結果は、アプローチの有効性を検証し、さまざまな透明で反射的なオブジェクトにわたってその強力な一般化能力を確認します。

要約(オリジナル)

Transparent and reflective objects in everyday environments pose significant challenges for depth sensors due to their unique visual properties, such as specular reflections and light transmission. These characteristics often lead to incomplete or inaccurate depth estimation, which severely impacts downstream geometry-based vision tasks, including object recognition, scene reconstruction, and robotic manipulation. To address the issue of missing depth information in transparent and reflective objects, we propose DCIRNet, a novel multimodal depth completion network that effectively integrates RGB images and depth maps to enhance depth estimation quality. Our approach incorporates an innovative multimodal feature fusion module designed to extract complementary information between RGB images and incomplete depth maps. Furthermore, we introduce a multi-stage supervision and depth refinement strategy that progressively improves depth completion and effectively mitigates the issue of blurred object boundaries. We integrate our depth completion model into dexterous grasping frameworks and achieve a $44\%$ improvement in the grasp success rate for transparent and reflective objects. We conduct extensive experiments on public datasets, where DCIRNet demonstrates superior performance. The experimental results validate the effectiveness of our approach and confirm its strong generalization capability across various transparent and reflective objects.

arxiv情報

著者 Guanghu Xie,Zhiduo Jiang,Yonglong Zhang,Yang Liu,Zongwu Xie,Baoshi Cao,Hong Liu
発行日 2025-06-11 08:04:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク