要約
拡散トランス (DiT) は、テキストの指示に基づいてリアルな画像やビデオを生成するなど、ビジュアル生成タスクで顕著なパフォーマンスを発揮します。
ただし、モデル サイズが大きくなり、ビデオ生成のためのマルチフレーム処理が行われると、計算コストとメモリ コストが増加し、エッジ デバイスでの実際の展開に課題が生じます。
ポストトレーニング量子化 (PTQ) は、メモリ コストと計算の複雑さを軽減する効果的な方法です。
拡散トランスを量子化する場合、U-Net 用に設計された既存の拡散量子化手法を適用すると、品質を維持するという課題に直面することがわかりました。
量子化拡散トランスの主な課題を分析した後、これらの問題に対処するために、改善された量子化スキーム「ViDiT-Q」(ビデオおよび画像拡散トランス量子化) を設計します。
さらに、高感度のレイヤーとタイムステップが、より低いビット幅の量子化を妨げていることを特定します。
これに取り組むために、新しいメトリック分離混合精度量子化手法 (ViDiT-Q-MP) を使用して ViDiT-Q を改良しました。
私たちは、さまざまなテキストから画像への変換およびビデオ モデルにわたって ViDiT-Q の有効性を検証します。
ベースライン量子化手法は W8A8 で失敗し、W4A8 で読み取り不能なコンテンツを生成しますが、ViDiT-Q はロスレス W8A8 量子化を実現します。
ViDiTQ-MP は、視覚品質の低下を無視して W4A8 を実現し、その結果、メモリが 2.5 倍最適化され、遅延が 1.5 倍高速化されます。
要約(オリジナル)
Diffusion transformers (DiTs) have exhibited remarkable performance in visual generation tasks, such as generating realistic images or videos based on textual instructions. However, larger model sizes and multi-frame processing for video generation lead to increased computational and memory costs, posing challenges for practical deployment on edge devices. Post-Training Quantization (PTQ) is an effective method for reducing memory costs and computational complexity. When quantizing diffusion transformers, we find that applying existing diffusion quantization methods designed for U-Net faces challenges in preserving quality. After analyzing the major challenges for quantizing diffusion transformers, we design an improved quantization scheme: ‘ViDiT-Q’: Video and Image Diffusion Transformer Quantization) to address these issues. Furthermore, we identify highly sensitive layers and timesteps hinder quantization for lower bit-widths. To tackle this, we improve ViDiT-Q with a novel metric-decoupled mixed-precision quantization method (ViDiT-Q-MP). We validate the effectiveness of ViDiT-Q across a variety of text-to-image and video models. While baseline quantization methods fail at W8A8 and produce unreadable content at W4A8, ViDiT-Q achieves lossless W8A8 quantization. ViDiTQ-MP achieves W4A8 with negligible visual quality degradation, resulting in a 2.5x memory optimization and a 1.5x latency speedup.
arxiv情報
著者 | Tianchen Zhao,Tongcheng Fang,Enshu Liu,Wan Rui,Widyadewi Soedarmadji,Shiyao Li,Zinan Lin,Guohao Dai,Shengen Yan,Huazhong Yang,Xuefei Ning,Yu Wang |
発行日 | 2024-06-04 17:57:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google