GAA-TSO: Geometry-Aware Assisted Depth Completion for Transparent and Specular Objects

要約

透明で鏡面のオブジェクトは、日常生活、工場、研究所で頻繁に遭遇します。
ただし、ユニークな光学特性により、これらのオブジェクトの深さ情報は通常、不完全で不正確であり、下流のロボット工学タスクに大きな課題をもたらします。
したがって、透明性および鏡面オブジェクトの深さ情報を正確に復元することが重要です。
これらのオブジェクトの以前の深さ完了方法は、通常、深さ予測を実行するために深さ画像の追加チャネルとしてRGB情報を使用します。
透明性および鏡面オブジェクトのテクスチャの特性が低いため、色情報に大きく依存するこれらの方法は、構造のない深度予測を生成する傾向があります。
さらに、これらの2Dメソッドは、深度チャネルに隠された3D構造を効果的に探索することができず、深さのあいまいさをもたらします。
この目的のために、シーンの3D構造的キューの探索に焦点を当てた透明および鏡面オブジェクトのジオメトリアシストアシスト深度完了方法を提案します。
具体的には、RGB-D入力から2D機能を抽出することに加えて、入力深度をポイントクラウドにバックプロジェクトし、3Dブランチを構築して、階層シーンレベルの3D構造的特徴を抽出します。
3D幾何情報を活用するために、いくつかのゲート付きクロスモーダル融合モジュールを設計して、画像ブランチにマルチレベルの3D幾何学的特徴を効果的に伝播します。
さらに、対応する2D機能に3D機能を適切に割り当てるための適応相関集約戦略を提案します。
ClearGrasp、OOD、Transcg、およびSTDデータセットに関する広範な実験は、この方法が他の最先端の方法よりも優れていることを示しています。
さらに、この方法がダウンストリームロボットグラッシングタスクのパフォーマンスを大幅に向上させることを実証します。

要約(オリジナル)

Transparent and specular objects are frequently encountered in daily life, factories, and laboratories. However, due to the unique optical properties, the depth information on these objects is usually incomplete and inaccurate, which poses significant challenges for downstream robotics tasks. Therefore, it is crucial to accurately restore the depth information of transparent and specular objects. Previous depth completion methods for these objects usually use RGB information as an additional channel of the depth image to perform depth prediction. Due to the poor-texture characteristics of transparent and specular objects, these methods that rely heavily on color information tend to generate structure-less depth predictions. Moreover, these 2D methods cannot effectively explore the 3D structure hidden in the depth channel, resulting in depth ambiguity. To this end, we propose a geometry-aware assisted depth completion method for transparent and specular objects, which focuses on exploring the 3D structural cues of the scene. Specifically, besides extracting 2D features from RGB-D input, we back-project the input depth to a point cloud and build the 3D branch to extract hierarchical scene-level 3D structural features. To exploit 3D geometric information, we design several gated cross-modal fusion modules to effectively propagate multi-level 3D geometric features to the image branch. In addition, we propose an adaptive correlation aggregation strategy to appropriately assign 3D features to the corresponding 2D features. Extensive experiments on ClearGrasp, OOD, TransCG, and STD datasets show that our method outperforms other state-of-the-art methods. We further demonstrate that our method significantly enhances the performance of downstream robotic grasping tasks.

arxiv情報

著者 Yizhe Liu,Tong Jia,Da Cai,Hao Wang,Dongyue Chen
発行日 2025-03-21 12:46:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク