Diffusion Models as Masked Autoencoders

要約

タイトル:拡散モデルをマスクされたオートエンコーダーとして使用することによる画像データ表現

要約:視覚データの真の理解を促進するために生成が可能であるという長年の信念があります。この信念に沿って、最近のデノイジング拡散モデルに関心が高まる中、視覚表現を生成的に事前トレーニングすることを再評価しています。直接的な事前トレーニングは強力な表現を生み出しませんが、マスクされた入力に拡散モデルを条件付け、拡散モデルをマスクされたオートエンコーダー(DiffMAE)として定式化することで、私たちのアプローチは、(i)下流の認識タスクの強力な初期化として機能し、(ii)高品質の画像インペイントを実施し、(iii)簡単にアルカテルビデオに拡張することができ、そこでは最先端の分類精度を実現しています。私たちはさらに、設計選択の利点と欠点について包括的な研究を実施し、拡散モデルとマスクされたオートエンコーダーとのつながりを構築しています。

要点:
– 視覚データの理解を促進するために、生成を再評価して、拡散モデルとして事前トレーニングを行うことが提案されている。
– しかし、直接事前トレーニングをすると強力な表現を生み出せないため、マスクされた入力に拡散モデルを条件付け、マスクされたオートエンコーダーとして定式化することが提案されている。
– このアプローチは、強力な初期化として機能し、高品質の画像インペイントを実現し、簡単にアルカテルビデオに拡張することができ、最新の分類精度を実現することができる。
– この研究では、設計選択の利点と欠点について包括的な研究が行われ、拡散モデルとマスクされたオートエンコーダーとのつながりが構築されている。

要約(オリジナル)

There has been a longstanding belief that generation can facilitate a true understanding of visual data. In line with this, we revisit generatively pre-training visual representations in light of recent interest in denoising diffusion models. While directly pre-training with diffusion models does not produce strong representations, we condition diffusion models on masked input and formulate diffusion models as masked autoencoders (DiffMAE). Our approach is capable of (i) serving as a strong initialization for downstream recognition tasks, (ii) conducting high-quality image inpainting, and (iii) being effortlessly extended to video where it produces state-of-the-art classification accuracy. We further perform a comprehensive study on the pros and cons of design choices and build connections between diffusion models and masked autoencoders.

arxiv情報

著者 Chen Wei,Karttikeya Mangalam,Po-Yao Huang,Yanghao Li,Haoqi Fan,Hu Xu,Huiyu Wang,Cihang Xie,Alan Yuille,Christoph Feichtenhofer
発行日 2023-04-06 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク