Progressive Transformation Learning For Leveraging Virtual Images in Training

要約

UAV画像から人などの対象物を効果的に検出するためには、様々なポーズの人物を含む大規模なUAVデータセットを取得することが必要であり、そのためには様々な視野角から撮影された画像が必要である。本論文では、このような手間のかかるデータ収集に代わる方法として、漸進的変換学習(Progressive Transformation Learning: PTL)を紹介する。PTLは、学習データセットに、よりリアルに変換された仮想画像を徐々に追加することにより、データセットを拡張する方法である。一般に、条件付きGANフレームワークの仮想2実画像変換器は、実画像と仮想画像の間に大きな領域ギャップが存在する場合、品質の劣化に悩まされる。PTLでは、この領域ギャップに対処するために、以下の3つのステップを漸次的に繰り返すという新しいアプローチをとっている。1) 領域ギャップの大きさに応じて仮想画像プールから部分集合を選択する、2) 選択した仮想画像をリアルに変換する、3) 変換した仮想画像をプールから削除しながら学習セットに追加する。PTLでは、領域ギャップを正確に定量化することが重要である。そのため、ある物体検出器の特徴表現空間を多変量ガウス分布としてモデル化し、そこから仮想物体と表現空間内の各物体カテゴリのガウス分布との間のマハラノビス距離を容易に計算できることを理論的に示す。実験によると、PTLは特に小データ領域とクロスドメイン領域において、ベースラインよりも大幅に性能が向上することが示された。

要約(オリジナル)

To effectively interrogate UAV-based images for detecting objects of interest, such as humans, it is essential to acquire large-scale UAV-based datasets that include human instances with various poses captured from widely varying viewing angles. As a viable alternative to laborious and costly data curation, we introduce Progressive Transformation Learning (PTL), which gradually augments a training dataset by adding transformed virtual images with enhanced realism. Generally, a virtual2real transformation generator in the conditional GAN framework suffers from quality degradation when a large domain gap exists between real and virtual images. To deal with the domain gap, PTL takes a novel approach that progressively iterates the following three steps: 1) select a subset from a pool of virtual images according to the domain gap, 2) transform the selected virtual images to enhance realism, and 3) add the transformed virtual images to the training set while removing them from the pool. In PTL, accurately quantifying the domain gap is critical. To do that, we theoretically demonstrate that the feature representation space of a given object detector can be modeled as a multivariate Gaussian distribution from which the Mahalanobis distance between a virtual object and the Gaussian distribution of each object category in the representation space can be readily computed. Experiments show that PTL results in a substantial performance increase over the baseline, especially in the small data and the cross-domain regime.

arxiv情報

著者 Yi-Ting Shen,Hyungtae Lee,Heesung Kwon,Shuvra Shikhar Bhattacharyya
発行日 2022-11-03 13:04:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク