Towards Open-World Segmentation of Parts

要約

カップのハンドルや動物の胴体などのオブジェクトの部分をセグメント化することは、現実世界の多くのアプリケーションで重要ですが、注釈の追加作業がさらに必要になります。
現在、最大のデータセットには 200 個のオブジェクト カテゴリしか含まれておらず、パーツ セグメンテーションを制約のない設定にスケールアップすることが困難であることを示唆しています。
これに対処するために、一見単純化されているように見えますが、経験的に有用でスケーラブルなタスクであるクラスに依存しないパーツ セグメンテーションを検討することを提案します。
この問題では、トレーニング時にパーツ クラスのラベルを無視し、代わりにすべてを 1 つのパーツ クラスとして扱います。
私たちは、パーツクラスを使用せずにトレーニングされたモデルがパーツの位置をより適切に特定し、トレーニングでは見えないオブジェクト上でそれらをセグメント化できることを主張し、実証します。
次に、さらに 2 つの改善点を紹介します。
まず、パーツが「構成」であり、その範囲が対応するオブジェクトによって制限され、その外観が本質的に独立ではなくバンドルされているという事実を利用して、モデルをオブジェクト認識にすることを提案します。
次に、興味深い発見に触発されて、目に見えないオブジェクトのパーツ セグメンテーションを改善するための新しいアプローチを紹介します。目に見えないオブジェクトの場合、モデルによって抽出されたピクセル単位の特徴により、高品質のパーツ セグメントが明らかになります。
この目的を達成するために、ピクセルのクラスタリングと、ピクセルを近づけたり遠ざけたりする教師あり対比学習を繰り返す新しい自己教師あり手順を提案します。
PartImageNet と Pascal-Part に関する広範な実験を通じて、私たちのアプローチによって顕著で一貫した成果が得られたことを示しました。これは本質的にオープンワールドのパーツ セグメンテーションに向けた重要なステップです。

要約(オリジナル)

Segmenting object parts such as cup handles and animal bodies is important in many real-world applications but requires more annotation effort. The largest dataset nowadays contains merely two hundred object categories, implying the difficulty to scale up part segmentation to an unconstrained setting. To address this, we propose to explore a seemingly simplified but empirically useful and scalable task, class-agnostic part segmentation. In this problem, we disregard the part class labels in training and instead treat all of them as a single part class. We argue and demonstrate that models trained without part classes can better localize parts and segment them on objects unseen in training. We then present two further improvements. First, we propose to make the model object-aware, leveraging the fact that parts are ‘compositions’, whose extents are bounded by the corresponding objects and whose appearances are by nature not independent but bundled. Second, we introduce a novel approach to improve part segmentation on unseen objects, inspired by an interesting finding — for unseen objects, the pixel-wise features extracted by the model often reveal high-quality part segments. To this end, we propose a novel self-supervised procedure that iterates between pixel clustering and supervised contrastive learning that pulls pixels closer or pushes them away. Via extensive experiments on PartImageNet and Pascal-Part, we show notable and consistent gains by our approach, essentially a critical step towards open-world part segmentation.

arxiv情報

著者 Tai-Yu Pan,Qing Liu,Wei-Lun Chao,Brian Price
発行日 2023-05-26 10:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク