要約
Open-Vocabulary Part Segmentation (OVPS) は、目に見えないカテゴリの細かい部分を認識するための新興分野です。
OVPS における 2 つの主要な課題を特定します。(1) パーツレベルの画像とテキストの対応を調整することの難しさ、および (2) オブジェクトパーツをセグメント化する際の構造的理解の欠如。
これらの問題に対処するために、オブジェクトを認識した部品レベルのコスト集計、構成損失、および DINO からの構造ガイダンスを統合する新しいフレームワークである PartCATSeg を提案します。
当社のアプローチでは、オブジェクトレベルと部品レベルのコストを個別に処理する、分解されたコスト集計戦略を採用し、部品レベルのセグメンテーションの精度を高めます。
また、パーツとオブジェクトの関係をより適切に捉えるために、構成上の損失を導入し、限られたパーツの注釈を補います。
さらに、DINO 機能による構造ガイダンスにより、境界の描写と部品間の理解が向上します。
Pascal-Part-116、ADE20K-Part-234、および PartImageNet データセットに対する広範な実験により、私たちの手法が最先端のアプローチを大幅に上回っており、未知の部品カテゴリに対する堅牢な一般化のための新しいベースラインを設定していることが実証されています。
要約(オリジナル)
Open-Vocabulary Part Segmentation (OVPS) is an emerging field for recognizing fine-grained parts in unseen categories. We identify two primary challenges in OVPS: (1) the difficulty in aligning part-level image-text correspondence, and (2) the lack of structural understanding in segmenting object parts. To address these issues, we propose PartCATSeg, a novel framework that integrates object-aware part-level cost aggregation, compositional loss, and structural guidance from DINO. Our approach employs a disentangled cost aggregation strategy that handles object and part-level costs separately, enhancing the precision of part-level segmentation. We also introduce a compositional loss to better capture part-object relationships, compensating for the limited part annotations. Additionally, structural guidance from DINO features improves boundary delineation and inter-part understanding. Extensive experiments on Pascal-Part-116, ADE20K-Part-234, and PartImageNet datasets demonstrate that our method significantly outperforms state-of-the-art approaches, setting a new baseline for robust generalization to unseen part categories.
arxiv情報
著者 | Jiho Choi,Seonho Lee,Minhyun Lee,Seungho Lee,Hyunjung Shim |
発行日 | 2025-01-16 17:40:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google