DP-Mix: Mixup-based Data Augmentation for Differentially Private Learning

要約

単純な画像変換や組み合わせなどのデータ拡張技術は、特にトレーニング データが限られている場合に、コンピューター ビジョン モデルの一般化を向上させるのに非常に効果的です。
ただし、このような手法は、差分プライベート学習アプローチとは基本的に互換性がありません。これは、学習されたモデルに対する各トレーニング画像の寄与が制限されているという後者の組み込みの仮定のためです。
この論文では、ミックスアップなどのマルチサンプル データ拡張手法の単純なアプリケーションが良好なパフォーマンスを達成できない理由を調査し、差分プライベート学習の制約に合わせて特別に設計された 2 つの新しいデータ拡張手法を提案します。
最初の手法である DP-Mix_Self は、自己拡張データに対してミックスアップを実行することで、さまざまなデータセットおよび設定にわたって SoTA 分類パフォーマンスを実現します。
2 番目の手法である DP-Mix_Diff は、事前トレーニングされた拡散モデルからの合成データをミックスアップ プロセスに組み込むことで、パフォーマンスをさらに向上させます。
コードは https://github.com/wenxuan-Bao/DP-Mix でオープンソース化されています。

要約(オリジナル)

Data augmentation techniques, such as simple image transformations and combinations, are highly effective at improving the generalization of computer vision models, especially when training data is limited. However, such techniques are fundamentally incompatible with differentially private learning approaches, due to the latter’s built-in assumption that each training image’s contribution to the learned model is bounded. In this paper, we investigate why naive applications of multi-sample data augmentation techniques, such as mixup, fail to achieve good performance and propose two novel data augmentation techniques specifically designed for the constraints of differentially private learning. Our first technique, DP-Mix_Self, achieves SoTA classification performance across a range of datasets and settings by performing mixup on self-augmented data. Our second technique, DP-Mix_Diff, further improves performance by incorporating synthetic data from a pre-trained diffusion model into the mixup process. We open-source the code at https://github.com/wenxuan-Bao/DP-Mix.

arxiv情報

著者 Wenxuan Bao,Francesco Pittaluga,Vijay Kumar B G,Vincent Bindschaedler
発行日 2023-11-02 15:12:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク