要約
イメージとビデオ生成に成功した生成モデルは、効果的なニューラルネットワークの重みを合成するために最近検討されました。
これらのアプローチでは、トレーニングされたニューラルネットワークチェックポイントをトレーニングデータとして使用し、推論中に高性能のニューラルネットワークの重みを生成することを目指しています。
この作業では、新しいモデルの重みを生成する能力、つまりトレーニング中に見られるチェックポイントとは異なる重みに関する4つの代表的な方法を調べます。
驚くべきことに、これらの方法は、主に暗記によって重みを合成していることがわかります。トレーニングチェックポイントのレプリカ、またはせいぜい単純な補間のいずれかを生成します。
現在のメソッドは、ウェイトにノイズを追加したり、単純な重量アンサンブルを服用したり、異なる高性能モデルを取得したりするなど、単純なベースラインを上回ることができません。
さらに、この暗記は、画像拡散モデルの記憶に一般的に関連するモデリング因子を変更したり、データの増強を適用したりすることで、効果的に軽減できないことを示します。
私たちの調査結果は、現在の生成モデルがモデル化できるデータの種類の現実的な評価を提供し、新しいドメインでの生成モデルのより慎重な評価の必要性を強調しています。
私たちのコードは、https://github.com/boyazeng/weight_memorizationで入手できます。
要約(オリジナル)
Generative models, with their success in image and video generation, have recently been explored for synthesizing effective neural network weights. These approaches take trained neural network checkpoints as training data, and aim to generate high-performing neural network weights during inference. In this work, we examine four representative methods on their ability to generate novel model weights, i.e., weights that are different from the checkpoints seen during training. Surprisingly, we find that these methods synthesize weights largely by memorization: they produce either replicas, or at best simple interpolations, of the training checkpoints. Current methods fail to outperform simple baselines, such as adding noise to the weights or taking a simple weight ensemble, in obtaining different and simultaneously high-performing models. We further show that this memorization cannot be effectively mitigated by modifying modeling factors commonly associated with memorization in image diffusion models, or applying data augmentations. Our findings provide a realistic assessment of what types of data current generative models can model, and highlight the need for more careful evaluation of generative models in new domains. Our code is available at https://github.com/boyazeng/weight_memorization.
arxiv情報
著者 | Boya Zeng,Yida Yin,Zhiqiu Xu,Zhuang Liu |
発行日 | 2025-06-09 17:58:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google