要約
データ拡張は、深層学習モデルを正規化し、さまざまなタスクやドメインでの認識パフォーマンスを向上させるための最も効果的な手法の 1 つです。
ただし、これは標準のドメイン内設定にも当てはまり、トレーニング データとテスト データは同じ分布に従います。
テストデータが異なる未知の分布に従うドメイン外の場合、データ拡張の最適なレシピは不明です。
このペーパーでは、ドメイン外およびドメイン汎化設定において、データ拡張によりパフォーマンスが顕著かつ確実に向上する可能性があることを示します。
これを行うために、簡単なトレーニング手順を提案します。(i) 標準的なデータ拡張変換に対して均一なサンプリングを使用します。
(ii) ドメイン外で作業する場合に予想されるより高いデータ分散を考慮して強度変換を増やし、(iii) トレーニングに悪影響を与える可能性のある極端な変換を拒否する新しい報酬関数を考案します。
この手順により、当社のデータ拡張スキームは、ベンチマーク ドメイン汎化データセットに対する最先端の手法と同等またはそれ以上の精度レベルを達成します。
コード: \url{https://github.com/Masseeh/DCAug}
要約(オリジナル)
Data augmentation is one of the most effective techniques for regularizing deep learning models and improving their recognition performance in a variety of tasks and domains. However, this holds for standard in-domain settings, in which the training and test data follow the same distribution. For the out-of-domain case, where the test data follow a different and unknown distribution, the best recipe for data augmentation is unclear. In this paper, we show that for out-of-domain and domain generalization settings, data augmentation can provide a conspicuous and robust improvement in performance. To do that, we propose a simple training procedure: (i) use uniform sampling on standard data augmentation transformations; (ii) increase the strength transformations to account for the higher data variance expected when working out-of-domain, and (iii) devise a new reward function to reject extreme transformations that can harm the training. With this procedure, our data augmentation scheme achieves a level of accuracy that is comparable to or better than state-of-the-art methods on benchmark domain generalization datasets. Code: \url{https://github.com/Masseeh/DCAug}
arxiv情報
著者 | Masih Aminbeidokhti,Fidel A. Guerrero Peña,Heitor Rapela Medeiros,Thomas Dubail,Eric Granger,Marco Pedersoli |
発行日 | 2023-10-10 14:46:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google