Dataset Distillation via the Wasserstein Metric

要約

データセット蒸留 (DD) は、モデルのパフォーマンスをほとんど犠牲にすることなく、広範なデータセットをより小さな合成バージョンに圧縮することを目的とした、コンピューター ビジョンにおける魅力的なアプローチを提供します。
この論文では、概念的に中核となる目的、つまり、広範なデータセットの本質的な表現をより小さな合成形式で取得する方法に取り組むことにより、DD の方法の研究を続けます。
我々は、DD における分布マッチングを強化するために、最適輸送理論に根ざしたメトリックである Wasserstein 距離を利用した新しいアプローチを提案します。
私たちの方法はワッサーシュタイン重心を活用し、分布の違いを定量化し、一連の分布の重心を効果的に捕捉する幾何学的に意味のある方法を提供します。
私たちのアプローチは、分布マッチングベースの手法の計算上の利点を維持しながら、いくつかのベンチマークで新しい最先端のパフォーマンスを達成します。
画像の学習に役立つ事前情報を提供するために、事前学習された分類モデルの特徴空間に合​​成データを埋め込み、分布マッチングを実行します。
さまざまな高解像度データセットに対する広範なテストにより、私たちの手法の有効性と適応性が確認され、データセット蒸留における Wasserstein メトリクスの有望だが未開発の機能が示されています。

要約(オリジナル)

Dataset distillation (DD) offers a compelling approach in computer vision, with the goal of condensing extensive datasets into smaller synthetic versions without sacrificing much of the model performance. In this paper, we continue to study the methods for DD, by addressing its conceptually core objective: how to capture the essential representation of extensive datasets in smaller, synthetic forms. We propose a novel approach utilizing the Wasserstein distance, a metric rooted in optimal transport theory, to enhance distribution matching in DD. Our method leverages the Wasserstein barycenter, offering a geometrically meaningful way to quantify distribution differences and effectively capture the centroid of a set of distributions. Our approach retains the computational benefits of distribution matching-based methods while achieving new state-of-the-art performance on several benchmarks. To provide useful prior for learning the images, we embed the synthetic data into the feature space of pretrained classification models to conduct distribution matching. Extensive testing on various high-resolution datasets confirms the effectiveness and adaptability of our method, indicating the promising yet unexplored capabilities of Wasserstein metrics in dataset distillation.

arxiv情報

著者 Haoyang Liu,Tiancheng Xing,Luwei Li,Vibhu Dalal,Jingrui He,Haohan Wang
発行日 2023-11-30 13:15:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク