要約
ロボティクスとオートメーションの分野では、ワイヤ、ケーブル、フレキシブル チューブなどの変形可能線形オブジェクト (DLO) を認識する場合、従来のオブジェクト認識およびインスタンス セグメンテーションの方法は、大きな課題に直面しています。
この課題は主に、形状、色、テクスチャなどの明確な属性が欠如していることから生じており、正確な識別を達成するには、カスタマイズされたソリューションが必要です。
この研究では、テキスト プロンプトが可能でユーザーフレンドリーな、基礎モデルベースの DLO インスタンス セグメンテーション手法を提案します。
具体的には、私たちのアプローチは、CLIPSeg モデルのテキスト条件付きセマンティック セグメンテーション機能と、Segment Anything Model (SAM) のゼロショット汎化機能を組み合わせています。
私たちの方法が DLO インスタンスのセグメンテーションで SOTA パフォーマンスを上回り、$91.21\%$ の mIoU を達成することを示します。
また、インスタンスのセグメンテーション用に、豊富で多様な DLO 固有のデータセットも導入します。
要約(オリジナル)
In the field of robotics and automation, conventional object recognition and instance segmentation methods face a formidable challenge when it comes to perceiving Deformable Linear Objects (DLOs) like wires, cables, and flexible tubes. This challenge arises primarily from the lack of distinct attributes such as shape, color, and texture, which calls for tailored solutions to achieve precise identification. In this work, we propose a foundation model-based DLO instance segmentation technique that is text-promptable and user-friendly. Specifically, our approach combines the text-conditioned semantic segmentation capabilities of CLIPSeg model with the zero-shot generalization capabilities of Segment Anything Model (SAM). We show that our method exceeds SOTA performance on DLO instance segmentation, achieving a mIoU of $91.21\%$. We also introduce a rich and diverse DLO-specific dataset for instance segmentation.
arxiv情報
著者 | Shir Kozlovsky,Omkar Joglekar,Dotan Di Castro |
発行日 | 2024-02-19 09:41:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google