M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy

要約

最先端の(SOTA)ディープモデルの学習には、多くの場合、膨大なデータが必要であり、その結果、学習コストとストレージコストが大きくなる。このような課題に対処するため、元の大規模データセットから重要な情報を保持したまま、小さな合成セットを学習するデータセット凝縮が開発されてきた。現在では、最適化指向の手法が、SOTAの結果を達成するためのデータセット凝縮の分野における主要な手法となっている。しかし、二段階の最適化プロセスが、現実的で大規模なデータセットへのこのような手法の実用化を妨げている。凝縮効率を向上させるために、これまでの研究では、凝縮コストを大幅に削減するDistribution-Matching (DM)が提案されている。にもかかわらず、現在のDMベースの手法は、分布の第一モーメントのみを整合させることに重点を置いているため、最適化指向の手法に匹敵する結果は得られていない。本論文では、合成画像と実画像の特徴表現間の最大平均不一致を最小化することで、データセット凝縮のためのM3Dと名付けられた新しいDMベースの手法を提示する。両者の分布を再現カーネルヒルベルト空間に埋め込むことで、実画像と合成画像の分布の全ての次数のモーメントを整列させ、より一般化された凝縮集合を得る。注目すべきことに、我々の手法は、高解像度のImageNetデータセットにおいて、SOTA最適化指向の手法IDCを凌駕さえしている。提案手法の有効性を検証するため、広範な解析を行う。

要約(オリジナル)

Training state-of-the-art (SOTA) deep models often requires extensive data, resulting in substantial training and storage costs. To address these challenges, dataset condensation has been developed to learn a small synthetic set that preserves essential information from the original large-scale dataset. Nowadays, optimization-oriented methods have been the primary method in the field of dataset condensation for achieving SOTA results. However, the bi-level optimization process hinders the practical application of such methods to realistic and larger datasets. To enhance condensation efficiency, previous works proposed Distribution-Matching (DM) as an alternative, which significantly reduces the condensation cost. Nonetheless, current DM-based methods have yielded less comparable results to optimization-oriented methods due to their focus on aligning only the first moment of the distributions. In this paper, we present a novel DM-based method named M3D for dataset condensation by Minimizing the Maximum Mean Discrepancy between feature representations of the synthetic and real images. By embedding their distributions in a reproducing kernel Hilbert space, we align all orders of moments of the distributions of real and synthetic images, resulting in a more generalized condensed set. Notably, our method even surpasses the SOTA optimization-oriented method IDC on the high-resolution ImageNet dataset. Extensive analysis is conducted to verify the effectiveness of the proposed method.

arxiv情報

著者 Hansong Zhang,Shikun Li,Pengju Wang,Dan Zeng,Shiming Ge
発行日 2024-01-03 16:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク