Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning

要約

ビット拡散: 連続状態および連続時間拡散モデルを使用して離散データを生成するためのシンプルで一般的なアプローチを紹介します。
私たちのアプローチの背後にある主なアイデアは、最初に離散データをバイナリ ビットとして表現し、次に連続拡散モデルをトレーニングして、これらのビットをアナログ ビットと呼ばれる実数としてモデル化することです。
サンプルを生成するために、モデルは最初にアナログ ビットを生成し、次にしきい値処理して離散変数を表すビットを取得します。
さらに、サンプル品質の大幅な改善につながる自己調整と非対称時間間隔という 2 つの単純な手法を提案します。
そのシンプルさにもかかわらず、提案されたアプローチは、離散画像生成と画像キャプションタスクの両方で強力なパフォーマンスを達成できます。
離散画像生成については、CIFAR-10 (3K の離散 8 ビット トークンを持つ) と ImageNet-64×64 (12K の離散 8 ビット トークンを持つ) の両方で、以前の最先端技術を大幅に改善し、最高の自己回帰を凌駕します。
サンプル品質 (FID で測定) と効率の両方でモデル化されています。
MS-COCO データセットの画像キャプションでは、自己回帰モデルと比較して、私たちのアプローチは競争力のある結果を達成します。

要約(オリジナル)

We present Bit Diffusion: a simple and generic approach for generating discrete data with continuous state and continuous time diffusion models. The main idea behind our approach is to first represent the discrete data as binary bits, and then train a continuous diffusion model to model these bits as real numbers which we call analog bits. To generate samples, the model first generates the analog bits, which are then thresholded to obtain the bits that represent the discrete variables. We further propose two simple techniques, namely Self-Conditioning and Asymmetric Time Intervals, which lead to a significant improvement in sample quality. Despite its simplicity, the proposed approach can achieve strong performance in both discrete image generation and image captioning tasks. For discrete image generation, we significantly improve previous state-of-the-art on both CIFAR-10 (which has 3K discrete 8-bit tokens) and ImageNet-64×64 (which has 12K discrete 8-bit tokens), outperforming the best autoregressive model in both sample quality (measured by FID) and efficiency. For image captioning on MS-COCO dataset, our approach achieves competitive results compared to autoregressive models.

arxiv情報

著者 Ting Chen,Ruixiang Zhang,Geoffrey Hinton
発行日 2023-03-01 00:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク