要約
セマンティック部分セグメンテーションは、オブジェクトの複雑で解釈可能な理解を提供し、それによって多数の下流タスクに利益をもたらします。
ただし、網羅的な注釈が必要なため、さまざまなオブジェクト タイプでの使用が妨げられます。
この論文は、コンピュータ支援設計 (CAD) 動物モデルによって生成された既存の合成データをスケールアップするために、スキン付きマルチ動物線形 (SMAL) モデルを活用して、合成動物から部位セグメンテーションを学習することに焦点を当てています。
CAD モデルと比較して、SMAL モデルは、現実世界のシナリオで観察される幅広いポーズのデータを生成します。
その結果、私たちの最初の貢献は、合成動物パーツ (SAP) と呼ばれる、ポーズの多様性がより高いトラと馬の合成動物データセットを構築することです。
次に、SAP から PartImageNet への Syn-to-Real 動物部位セグメンテーション、つまり SynRealPart を既存のセマンティック セグメンテーション ドメイン適応手法でベンチマークし、2 番目の貢献としてそれらをさらに改善します。
具体的には、3 つの Syn-to-Real 適応方法を検証しますが、2 つのタスク間の固有の違いによる相対的なパフォーマンスの低下が観察されます。
これに対処するために、クラスバランスドフーリエデータミキシング (CB-FDM) と呼ばれる、シンプルかつ効果的な方法を提案します。
フーリエ データ ミキシングは、合成画像のスペクトル振幅を実際の画像と一致させ、それによって混合画像の周波数成分が実際の画像とより類似したものになります。
さらに、クラスバランス疑似ラベル再重み付けを使用して、不均衡なクラス分布を軽減します。
SynRealPart での CB-FDM の有効性が、以前の方法と比べて大幅にパフォーマンスが向上することを実証します。
注目すべきことに、私たちの 3 番目の貢献は、合成トラとウマから学習したパーツが PartImageNet 内のすべての四足動物に転送可能であることを明らかにし、動物パーツのセグメンテーションの有用性と潜在的なアプリケーションをさらに強調することです。
要約(オリジナル)
Semantic part segmentation provides an intricate and interpretable understanding of an object, thereby benefiting numerous downstream tasks. However, the need for exhaustive annotations impedes its usage across diverse object types. This paper focuses on learning part segmentation from synthetic animals, leveraging the Skinned Multi-Animal Linear (SMAL) models to scale up existing synthetic data generated by computer-aided design (CAD) animal models. Compared to CAD models, SMAL models generate data with a wider range of poses observed in real-world scenarios. As a result, our first contribution is to construct a synthetic animal dataset of tigers and horses with more pose diversity, termed Synthetic Animal Parts (SAP). We then benchmark Syn-to-Real animal part segmentation from SAP to PartImageNet, namely SynRealPart, with existing semantic segmentation domain adaptation methods and further improve them as our second contribution. Concretely, we examine three Syn-to-Real adaptation methods but observe relative performance drop due to the innate difference between the two tasks. To address this, we propose a simple yet effective method called Class-Balanced Fourier Data Mixing (CB-FDM). Fourier Data Mixing aligns the spectral amplitudes of synthetic images with real images, thereby making the mixed images have more similar frequency content to real images. We further use Class-Balanced Pseudo-Label Re-Weighting to alleviate the imbalanced class distribution. We demonstrate the efficacy of CB-FDM on SynRealPart over previous methods with significant performance improvements. Remarkably, our third contribution is to reveal that the learned parts from synthetic tiger and horse are transferable across all quadrupeds in PartImageNet, further underscoring the utility and potential applications of animal part segmentation.
arxiv情報
著者 | Jiawei Peng,Ju He,Prakhar Kaushik,Zihao Xiao,Jiteng Mu,Alan Yuille |
発行日 | 2023-11-30 16:10:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google