DD-Ranking: Rethinking the Evaluation of Dataset Distillation

要約

近年、データセットの蒸留により、データ圧縮の信頼できるソリューションが提供されています。このソリューションでは、結果としてトレーニングされたより小さな合成データセットでトレーニングされたモデルは、元のデータセットでトレーニングされたものに匹敵するパフォーマンスを実現します。
合成データセットのパフォーマンスをさらに向上させるために、さまざまなトレーニングパイプラインと最適化目標が提案されており、データセットの蒸留の分野を大きく進めています。
最近分離されたデータセット蒸留方法により、大規模なデータセットまでの評価段階およびスケールデータセットの蒸留中にソフトラベルとより強力なデータ増強が導入されます(例:Imagenet-1K)。
ただし、これは疑問を提起します。データセット蒸留方法を公正に評価するための精度は依然として信頼できるメトリックですか?
私たちの経験的調査結果は、これらの方法のパフォーマンスの改善が、画像自体の固有の品質ではなく、追加の技術に由来することが多く、ランダムにサンプリングされた画像でさえ優れた結果を達成することを示唆しています。
このような不整合された評価設定は、DDの開発を厳しく妨げます。
したがって、統一された評価フレームワークであるDDランクと、さまざまな方法で達成された真のパフォーマンスの改善を明らかにするための新しい一般的な評価メトリックを提案します。
蒸留データセットの実際の情報強化に再び焦点を合わせることにより、DD-Rankkingは、将来の研究の進歩に対して、より包括的で公正な評価基準を提供します。

要約(オリジナル)

In recent years, dataset distillation has provided a reliable solution for data compression, where models trained on the resulting smaller synthetic datasets achieve performance comparable to those trained on the original datasets. To further improve the performance of synthetic datasets, various training pipelines and optimization objectives have been proposed, greatly advancing the field of dataset distillation. Recent decoupled dataset distillation methods introduce soft labels and stronger data augmentation during the post-evaluation phase and scale dataset distillation up to larger datasets (e.g., ImageNet-1K). However, this raises a question: Is accuracy still a reliable metric to fairly evaluate dataset distillation methods? Our empirical findings suggest that the performance improvements of these methods often stem from additional techniques rather than the inherent quality of the images themselves, with even randomly sampled images achieving superior results. Such misaligned evaluation settings severely hinder the development of DD. Therefore, we propose DD-Ranking, a unified evaluation framework, along with new general evaluation metrics to uncover the true performance improvements achieved by different methods. By refocusing on the actual information enhancement of distilled datasets, DD-Ranking provides a more comprehensive and fair evaluation standard for future research advancements.

arxiv情報

著者 Zekai Li,Xinhao Zhong,Samir Khaki,Zhiyuan Liang,Yuhao Zhou,Mingjia Shi,Ziqiao Wang,Xuanlei Zhao,Wangbo Zhao,Ziheng Qin,Mengxuan Wu,Pengfei Zhou,Haonan Wang,David Junhao Zhang,Jia-Wei Liu,Shaobo Wang,Dai Liu,Linfeng Zhang,Guang Li,Kun Wang,Zheng Zhu,Zhiheng Ma,Joey Tianyi Zhou,Jiancheng Lv,Yaochu Jin,Peihao Wang,Kaipeng Zhang,Lingjuan Lyu,Yiran Huang,Zeynep Akata,Zhiwei Deng,Xindi Wu,George Cazenavette,Yuzhang Shang,Justin Cui,Jindong Gu,Qian Zheng,Hao Ye,Shuo Wang,Xiaobo Wang,Yan Yan,Angela Yao,Mike Zheng Shou,Tianlong Chen,Hakan Bilen,Baharan Mirzasoleiman,Manolis Kellis,Konstantinos N. Plataniotis,Zhangyang Wang,Bo Zhao,Yang You,Kai Wang
発行日 2025-05-19 16:19:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク