PASTA: Proportional Amplitude Spectrum Training Augmentation for Syn-to-Real Domain Generalization

要約

合成データは、タスク用のラベル付けされた現実世界のデータが大量に利用できない環境で、安価で豊富なトレーニング データを約束します。
ただし、合成データでトレーニングされたモデルは、実際のデータではパフォーマンスが大幅に低下します。
この論文では、すぐに使える合成から実への(syn-to-real)一般化パフォーマンスを改善するためのシンプルで効果的な拡張戦略である比例振幅スペクトルトレーニング拡張(PASTA)を提案します。
PASTA では、合成画像の振幅スペクトルをフーリエ ドメインで摂動して、拡張ビューを生成します。
高周波成分が低周波成分よりも相対的に大きく摂動されるように、構造化された方法で振幅スペクトルを摂動するように PASTA を設計します。
セマンティック セグメンテーション (GTAV から Real)、オブジェクト検出 (Sim10K から Real)、およびオブジェクト認識 (VisDA-C Syn から Real) のタスクでは、合計 5 回の syn から real へのシフトで、PASTA がより優れていることがわかります。
複雑な最先端の一般化方法を補完しながら。

要約(オリジナル)

Synthetic data offers the promise of cheap and bountiful training data for settings where lots of labeled real-world data for tasks is unavailable. However, models trained on synthetic data significantly underperform on real-world data. In this paper, we propose Proportional Amplitude Spectrum Training Augmentation (PASTA), a simple and effective augmentation strategy to improve out-of-the-box synthetic-to-real (syn-to-real) generalization performance. PASTA involves perturbing the amplitude spectrums of the synthetic images in the Fourier domain to generate augmented views. We design PASTA to perturb the amplitude spectrums in a structured manner such that high-frequency components are perturbed relatively more than the low-frequency ones. For the tasks of semantic segmentation (GTAV to Real), object detection (Sim10K to Real), and object recognition (VisDA-C Syn to Real), across a total of 5 syn-to-real shifts, we find that PASTA outperforms more complex state-of-the-art generalization methods while being complementary to the same.

arxiv情報

著者 Prithvijit Chattopadhyay,Kartik Sarangmath,Vivek Vijaykumar,Judy Hoffman
発行日 2022-12-25 09:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク