Uncovering Hidden Subspaces in Video Diffusion Models Using Re-Identification

要約

潜在ビデオ拡散モデルは、生成された画質と時間的一貫性のおかげで、一般の観察者も分野の専門家も同様に簡単に欺くことができます。
これにより、エンターテインメントを超えて、完全に合成されたデータセットの安全なデータ共有に関する機会が生まれます。これは医療や機密性の高い個人情報に依存する他の分野において重要です。
ただし、このアプローチによるプライバシーの問題はまだ完全には解決されておらず、特定の下流タスクのために合成データでトレーニングされたモデルは、依然として実際のデータでトレーニングされたモデルよりもパフォーマンスが悪くなります。
この不一致は、サンプリング空間がトレーニング ビデオの部分空間であるため、下流モデルのトレーニング データ サイズが効果的に削減されることが部分的に原因である可能性があります。
さらに、長いビデオを生成する際の時間的一貫性の低下も要因である可能性があります。
この論文では、潜在空間でプライバシー保護モデルをトレーニングする方が計算効率が高く、一般化がより適切であることを最初に示します。
さらに、下流の劣化要因を調査するために、プライバシー保護フィルタとして以前に使用されていた再識別モデルを使用することを提案します。
ビデオ ジェネレーターの潜在空間でこのモデルをトレーニングするだけで十分であることを示します。
その後、これらのモデルを使用して合成ビデオ データセットによってカバーされる部分空間を評価し、生成機械学習モデルの忠実性を測定する新しい方法を導入します。
私たちは、医療心エコー検査における特定のアプリケーションに焦点を当て、新しい方法の有効性を説明します。
私たちの調査結果では、トレーニング ビデオの最大 30.8% のみが潜在ビデオ拡散モデルで学習されることが示されており、これが合成データで下流タスクをトレーニングする際のパフォーマンスの欠如を説明できる可能性があります。

要約(オリジナル)

Latent Video Diffusion Models can easily deceive casual observers and domain experts alike thanks to the produced image quality and temporal consistency. Beyond entertainment, this creates opportunities around safe data sharing of fully synthetic datasets, which are crucial in healthcare, as well as other domains relying on sensitive personal information. However, privacy concerns with this approach have not fully been addressed yet, and models trained on synthetic data for specific downstream tasks still perform worse than those trained on real data. This discrepancy may be partly due to the sampling space being a subspace of the training videos, effectively reducing the training data size for downstream models. Additionally, the reduced temporal consistency when generating long videos could be a contributing factor. In this paper, we first show that training privacy-preserving models in latent space is computationally more efficient and generalize better. Furthermore, to investigate downstream degradation factors, we propose to use a re-identification model, previously employed as a privacy preservation filter. We demonstrate that it is sufficient to train this model on the latent space of the video generator. Subsequently, we use these models to evaluate the subspace covered by synthetic video datasets and thus introduce a new way to measure the faithfulness of generative machine learning models. We focus on a specific application in healthcare echocardiography to illustrate the effectiveness of our novel methods. Our findings indicate that only up to 30.8% of the training videos are learned in latent video diffusion models, which could explain the lack of performance when training downstream tasks on synthetic data.

arxiv情報

著者 Mischa Dombrowski,Hadrien Reynaud,Bernhard Kainz
発行日 2024-11-07 18:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク