要約
透明な物体の知覚は、多くのロボットタスクに不可欠である。しかし、複雑な光学特性のため、透明物体の正確な分割と奥行きの推定は依然として困難である。既存の手法では、余分な入力や特殊なセンサーを用いて、主に1つのタスクのみを掘り下げているため、タスク間の貴重な相互作用やその後の洗練プロセスが無視され、最適でないぼやけた予測につながる。これらの問題に対処するため、我々は、単一画像入力のみで、透明物体のセグメンテーションと奥行き推定の両方に優れた、初めての単眼フレームワークを提案する。具体的には、新しい意味的・幾何学的融合モジュールを考案し、タスク間のマルチスケール情報を効果的に統合する。さらに、人間の物体認識からヒントを得て、より明確な結果を得るために、初期特徴を徐々に洗練させる反復戦略をさらに取り入れる。つの困難な合成データセットと実世界のデータセットを用いた実験により、我々のモデルが、単一のRGB入力のみで、約38.8%-46.2%という大きなマージンをもって、最先端の単眼、ステレオ、多視点手法を凌駕することが実証された。コードとモデルはhttps://github.com/L-J-Yuan/MODEST。
要約(オリジナル)
Transparent object perception is indispensable for numerous robotic tasks. However, accurately segmenting and estimating the depth of transparent objects remain challenging due to complex optical properties. Existing methods primarily delve into only one task using extra inputs or specialized sensors, neglecting the valuable interactions among tasks and the subsequent refinement process, leading to suboptimal and blurry predictions. To address these issues, we propose a monocular framework, which is the first to excel in both segmentation and depth estimation of transparent objects, with only a single-image input. Specifically, we devise a novel semantic and geometric fusion module, effectively integrating the multi-scale information between tasks. In addition, drawing inspiration from human perception of objects, we further incorporate an iterative strategy, which progressively refines initial features for clearer results. Experiments on two challenging synthetic and real-world datasets demonstrate that our model surpasses state-of-the-art monocular, stereo, and multi-view methods by a large margin of about 38.8%-46.2% with only a single RGB input. Codes and models are publicly available at https://github.com/L-J-Yuan/MODEST.
arxiv情報
著者 | Jiangyuan Liu,Hongxuan Ma,Yuxin Guo,Yuhao Zhao,Chi Zhang,Wei Sui,Wei Zou |
発行日 | 2025-03-03 12:37:18+00:00 |
arxivサイト | arxiv_id(pdf) |