Adapting Pre-Trained Vision Models for Novel Instance Detection and Segmentation

要約

Novel Instance Detection and Segmentation (NIDS) は、各インスタンスのいくつかの例を与えて、新しいオブジェクト インスタンスを検出してセグメント化することを目的としています。
我々は、オブジェクト提案生成、インスタンステンプレートと提案領域の両方に対する埋め込み作成、インスタンスラベル割り当てのための埋め込みマッチングからなる統合フレームワーク(NIDS-Net)を提案します。
大型ビジョン手法の最近の進歩を活用し、Grounding DINO と Segment Anything Model (SAM) を利用して、正確なバウンディング ボックスとマスクを備えたオブジェクトの提案を取得します。
私たちのアプローチの中心となるのは、高品質のインスタンス埋め込みの生成です。
DINOv2 ViT バックボーンからのパッチ エンベ​​ディングの前景特徴量の平均を利用し、その後、導入した重みアダプター メカニズムによる改良を行います。
重みアダプターが特徴空間内でローカルに埋め込みを調整し、過剰学習を効果的に制限できることを実験的に示します。
この方法により、単純なマッチング戦略が可能になり、パフォーマンスが大幅に向上します。
私たちのフレームワークは現在の最先端の手法を上回り、4 つの検出データセット全体で平均精度 (AP) が 22.3、46.2、10.3、24.0 と顕著に向上していることが実証されています。
BOP チャレンジの 7 つのコア データセットに対するインスタンス セグメンテーション タスクでは、私たちの手法は上位の RGB 手法を 3.6 AP 上回っており、最高の RGB-D 手法との競争力を維持しています。
コードはhttps://github.com/YoungSean/NIDS-Netから入手できます。

要約(オリジナル)

Novel Instance Detection and Segmentation (NIDS) aims at detecting and segmenting novel object instances given a few examples of each instance. We propose a unified framework (NIDS-Net) comprising object proposal generation, embedding creation for both instance templates and proposal regions, and embedding matching for instance label assignment. Leveraging recent advancements in large vision methods, we utilize the Grounding DINO and Segment Anything Model (SAM) to obtain object proposals with accurate bounding boxes and masks. Central to our approach is the generation of high-quality instance embeddings. We utilize foreground feature averages of patch embeddings from the DINOv2 ViT backbone, followed by refinement through a weight adapter mechanism that we introduce. We show experimentally that our weight adapter can adjust the embeddings locally within their feature space and effectively limit overfitting. This methodology enables a straightforward matching strategy, resulting in significant performance gains. Our framework surpasses current state-of-the-art methods, demonstrating notable improvements of 22.3, 46.2, 10.3, and 24.0 in average precision (AP) across four detection datasets. In instance segmentation tasks on seven core datasets of the BOP challenge, our method outperforms the top RGB methods by 3.6 AP and remains competitive with the best RGB-D method. Code is available at: https://github.com/YoungSean/NIDS-Net

arxiv情報

著者 Yangxiao Lu,Jishnu Jaykumar P,Yunhui Guo,Nicholas Ruozzi,Yu Xiang
発行日 2024-05-28 06:16:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク