要約
成功した生成表現学習モデルと自己教師あり表現学習モデルの両方の中核には、何らかの形式の画像破損を組み込んだ再構成目標があります。
拡散モデルは、スケジュールされたガウス破損プロセスを通じてこのアプローチを実装しますが、マスクされた自動エンコーダー モデルは、画像のパッチをマスクすることによってこれを実行します。
アプローチは異なっていますが、方法論の根本的な類似性は、両方のノイズ除去タスクを実行できるオートエンコーダーの有望な手段であることを示唆しています。
私たちは、単一の自動エンコーディング フレームワーク内でパッチベースとノイズベースの破損手法を組み合わせた、統合マスク拡散 (UMD) と呼ばれる、統合された自己教師あり目標を提案します。
具体的には、UMD は、拡散ノイズ スケジュールに追加のノイズのない高マスキング表現ステップを導入することで拡散トランスフォーマー (DiT) トレーニング プロセスを変更し、後続のタイムステップでマスクされたイメージとノイズが含まれた混合イメージを利用します。
拡散モデリングやマスクされたパッチ トークンの予測に役立つ機能を統合することにより、UMD は、線形プローブやクラス条件付き生成など、下流の生成および表現学習タスクで強力なパフォーマンスを実現します。
これは、大量のデータの拡張、複数のビュー、追加のエンコーダを必要とせずに実現されます。
さらに、UMD は、総トレーニング時間における従来の拡散ベースの方法の計算効率を上回ります。
コードは https://github.com/philippe-eecs/small-vision でリリースされます。
要約(オリジナル)
At the core of both successful generative and self-supervised representation learning models there is a reconstruction objective that incorporates some form of image corruption. Diffusion models implement this approach through a scheduled Gaussian corruption process, while masked auto-encoder models do so by masking patches of the image. Despite their different approaches, the underlying similarity in their methodologies suggests a promising avenue for an auto-encoder capable of both de-noising tasks. We propose a unified self-supervised objective, dubbed Unified Masked Diffusion (UMD), that combines patch-based and noise-based corruption techniques within a single auto-encoding framework. Specifically, UMD modifies the diffusion transformer (DiT) training process by introducing an additional noise-free, high masking representation step in the diffusion noising schedule, and utilizes a mixed masked and noised image for subsequent timesteps. By integrating features useful for diffusion modeling and for predicting masked patch tokens, UMD achieves strong performance in downstream generative and representation learning tasks, including linear probing and class-conditional generation. This is achieved without the need for heavy data augmentations, multiple views, or additional encoders. Furthermore, UMD improves over the computational efficiency of prior diffusion based methods in total training time. We release our code at https://github.com/philippe-eecs/small-vision.
arxiv情報
著者 | Philippe Hansen-Estruch,Sriram Vishwanath,Amy Zhang,Manan Tomar |
発行日 | 2024-06-25 16:24:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google