要約
このペーパーでは、産業およびスマートファクトリー環境でのロボット認識とオブジェクトの検出を強化するための、新しいマスクされた注意ベースの3Dガウススプラッティング(3DGS)アプローチを紹介します。
U2-NETは、バックグラウンド除去に使用され、生の画像からターゲットオブジェクトを分離し、それにより混乱を最小限に抑え、モデルが関連データのみを処理するようにします。
さらに、SOBELフィルターベースの注意メカニズムが3DGSフレームワークに統合され、詳細を強化します。これは、高精度タスクに不可欠なネジ、ワイヤー、複雑なテクスチャなどの重要な機能をキャプチャします。
L1損失、SSIM、PSNRを含む定量的メトリックを使用して、グラウンドトゥルース画像と元の3DGSトレーニングベースラインとのバックグラウンドリモ型および注意を組み込んだ3DGSモデルのパフォーマンスを比較して、アプローチを検証します。
結果は、視覚的な忠実度と詳細な保存の大幅な改善を示しており、複雑な産業環境でのオブジェクト認識と操作のためのロボットビジョンを強化する際の方法の有効性を強調しています。
要約(オリジナル)
This paper presents a novel masked attention-based 3D Gaussian Splatting (3DGS) approach to enhance robotic perception and object detection in industrial and smart factory environments. U2-Net is employed for background removal to isolate target objects from raw images, thereby minimizing clutter and ensuring that the model processes only relevant data. Additionally, a Sobel filter-based attention mechanism is integrated into the 3DGS framework to enhance fine details – capturing critical features such as screws, wires, and intricate textures essential for high-precision tasks. We validate our approach using quantitative metrics, including L1 loss, SSIM, PSNR, comparing the performance of the background-removed and attention-incorporated 3DGS model against the ground truth images and the original 3DGS training baseline. The results demonstrate significant improves in visual fidelity and detail preservation, highlighting the effectiveness of our method in enhancing robotic vision for object recognition and manipulation in complex industrial settings.
arxiv情報
著者 | Jee Won Lee,Hansol Lim,SooYeun Yang,Jongseong Brad Choi |
発行日 | 2025-03-25 03:45:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google