要約
データセットの蒸留は、元のデータセットからの重要な情報を保持したコンパクトな合成データのセットを学習することで、大規模なデータセットに伴うハードルを克服する戦略として登場しました。
抽出されたデータは高性能モデルのトレーニングに使用できますが、情報がどのように保存されるかについてはほとんどわかっていません。
この研究では、蒸留されたデータの動作、代表性、および点ごとの情報内容に関する 3 つの質問を立て、それに答えます。
データセット蒸留の標準評価設定以外のトレーニングでは、蒸留されたデータが実際のデータの代替として機能できないことが明らかになります。
さらに、蒸留プロセスでは、実際のモデルの初期トレーニング ダイナミクスに関連する情報を圧縮することにより、高いタスク パフォーマンスが維持されます。
最後に、抽出されたデータを解釈するためのフレームワークを提供し、個々の抽出されたデータ ポイントに意味のある意味情報が含まれていることを明らかにします。
この調査により、抽出されたデータの複雑な性質が明らかになり、データを効果的に利用する方法についての理解を深めることができます。
要約(オリジナル)
Dataset distillation has emerged as a strategy to overcome the hurdles associated with large datasets by learning a compact set of synthetic data that retains essential information from the original dataset. While distilled data can be used to train high performing models, little is understood about how the information is stored. In this study, we posit and answer three questions about the behavior, representativeness, and point-wise information content of distilled data. We reveal distilled data cannot serve as a substitute for real data during training outside the standard evaluation setting for dataset distillation. Additionally, the distillation process retains high task performance by compressing information related to the early training dynamics of real models. Finally, we provide an framework for interpreting distilled data and reveal that individual distilled data points contain meaningful semantic information. This investigation sheds light on the intricate nature of distilled data, providing a better understanding on how they can be effectively utilized.
arxiv情報
著者 | William Yang,Ye Zhu,Zhiwei Deng,Olga Russakovsky |
発行日 | 2024-06-06 17:28:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google