要約
我々は、連続拡散モデルを用いて離散データを生成するためのシンプルで汎用的なアプローチである、ビット拡散を紹介する。我々のアプローチの背後にある主な考え方は、まず離散データを2値ビットとして表現し、次に連続拡散モデルを訓練してこれらのビットを実数(我々はアナログビットと呼ぶ)としてモデル化することである。サンプルを生成するために、モデルはまずアナログビットを生成し、それを閾値処理して、離散変数を表すビットを得る。さらに、我々は自己調整と非対称時間間隔という2つの簡単な手法を提案し、サンプルの品質を大幅に向上させることに成功した。提案手法はその単純さにもかかわらず、離散画像生成と画像キャプション生成の両タスクにおいて高い性能を達成することができる。離散画像生成では、CIFAR-10(離散8ビットトークンが3K個)とImageNet-64×64(離散8ビットトークンが12K個)の両方において、サンプル品質(FIDで測定)と効率の両方で最良の自己回帰モデルを上回り、従来の最先端を大幅に改善することができる。MS-COCOデータセットにおける画像キャプションについても、我々のアプローチは自己回帰モデルと比較して競争力のある結果を達成している。
要約(オリジナル)
We present Bit Diffusion: a simple and generic approach for generating discrete data with continuous diffusion models. The main idea behind our approach is to first represent the discrete data as binary bits, and then train a continuous diffusion model to model these bits as real numbers which we call analog bits. To generate samples, the model first generates the analog bits, which are then thresholded to obtain the bits that represent the discrete variables. We further propose two simple techniques, namely Self-Conditioning and Asymmetric Time Intervals, which lead to a significant improvement in sample quality. Despite its simplicity, the proposed approach can achieve strong performance in both discrete image generation and image captioning tasks. For discrete image generation, we significantly improve previous state-of-the-art on both CIFAR-10 (which has 3K discrete 8-bit tokens) and ImageNet-64×64 (which has 12K discrete 8-bit tokens), outperforming the best autoregressive model in both sample quality (measured by FID) and efficiency. For image captioning on MS-COCO dataset, our approach achieves competitive results compared to autoregressive models.
arxiv情報
著者 | Ting Chen,Ruixiang Zhang,Geoffrey Hinton |
発行日 | 2022-08-08 15:08:40+00:00 |
arxivサイト | arxiv_id(pdf) |