Generalizing Dataset Distillation via Deep Generative Prior

要約

タイトル:一般化データセット蒸留による深層生成事前知識の汎用性改善
要約:
– データセット蒸留:データセットから知識を絞り込んで合成画像を作成する。
– 合成された数点のデータを学習アルゴリズムにトレーニングデータとして与えることで、元のデータを使ったモデルに近似したモデルを作成することを目的とする。
– 現代の研究にもかかわらず、既存のデータセット蒸留方法は新しいアーキテクチャに汎化できず、また高解像度データセットにスケーリングできないという問題がある。
– 上記問題を解決するために、事前にトレーニングされた深層生成モデルから学習した事前知識を使用して、蒸留されたデータを合成することを提案する。
– このために、いくつかの中間の特徴ベクトルに大量の画像を蒸留する新しい最適化アルゴリズムを提示する。
– 既存のテクニックを拡張し、すべての設定でクロスアーキテクチャの汎化を大幅に改善する方法を提供する。

要約(オリジナル)

Dataset Distillation aims to distill an entire dataset’s knowledge into a few synthetic images. The idea is to synthesize a small number of synthetic data points that, when given to a learning algorithm as training data, result in a model approximating one trained on the original data. Despite recent progress in the field, existing dataset distillation methods fail to generalize to new architectures and scale to high-resolution datasets. To overcome the above issues, we propose to use the learned prior from pre-trained deep generative models to synthesize the distilled data. To achieve this, we present a new optimization algorithm that distills a large number of images into a few intermediate feature vectors in the generative model’s latent space. Our method augments existing techniques, significantly improving cross-architecture generalization in all settings.

arxiv情報

著者 George Cazenavette,Tongzhou Wang,Antonio Torralba,Alexei A. Efros,Jun-Yan Zhu
発行日 2023-05-02 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク