これらの方法はベクトル量子化 (VQ) 空間でモデル化されますが、主要な認識方法は入力としてピクセルを使用します。
私たちの重要な洞察は 2 つあります。(1) 入力としてのピクセルは認識タスクにとって重要です。
(2) 再構成対象としての VQ トークンは、生成タスクに有益です。
これらの観察は、単一の表現学習フレームワーク内でこれら 2 つの空間を統合する交互ノイズ除去拡散プロセス (ADDP) を提案する動機となっています。
各ノイズ除去ステップでは、私たちの方法はまず以前の VQ トークンからピクセルをデコードし、次にデコードされたピクセルから新しい VQ トークンを生成します。
拡散プロセスでは、VQ トークンの一部が徐々にマスクされてトレーニング サンプルが構築されます。
広範な実験により、私たちの手法が無条件生成、ImageNet 分類、COCO 検出、および ADE20k セグメンテーションにおいて競争力のあるパフォーマンスを達成することが示されています。
Image recognition and generation have long been developed independently of each other. With the recent trend towards general-purpose representation learning, the development of general representations for both recognition and generation tasks is also promoted. However, preliminary attempts mainly focus on generation performance, but are still inferior on recognition tasks. These methods are modeled in the vector-quantized (VQ) space, whereas leading recognition methods use pixels as inputs. Our key insights are twofold: (1) pixels as inputs are crucial for recognition tasks; (2) VQ tokens as reconstruction targets are beneficial for generation tasks. These observations motivate us to propose an Alternating Denoising Diffusion Process (ADDP) that integrates these two spaces within a single representation learning framework. In each denoising step, our method first decodes pixels from previous VQ tokens, then generates new VQ tokens from the decoded pixels. The diffusion process gradually masks out a portion of VQ tokens to construct the training samples. The learned representations can be used to generate diverse high-fidelity images and also demonstrate excellent transfer performance on recognition tasks. Extensive experiments show that our method achieves competitive performance on unconditional generation, ImageNet classification, COCO detection, and ADE20k segmentation. Importantly, our method represents the first successful development of general representations applicable to both generation and dense recognition tasks. Code shall be released.
著者 | Changyao Tian,Chenxin Tao,Jifeng Dai,Hao Li,Ziheng Li,Lewei Lu,Xiaogang Wang,Hongsheng Li,Gao Huang,Xizhou Zhu |
発行日 | 2023-06-08 17:59:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google