Speed Is All You Need: On-Device Acceleration of Large Diffusion Models via GPU-Aware Optimizations

要約

基礎モデルの急速な開発と応用は、人工知能の分野に革命をもたらしました。
大型拡散モデルは、フォトリアリスティックな画像を生成し、さまざまなタスクをサポートする機能で大きな注目を集めています。
これらのモデルをデバイス上に展開すると、サーバー コストの削減、オフライン機能、ユーザー プライバシーの向上などの利点が得られます。
ただし、一般的な大規模拡散モデルには 10 億を超えるパラメータがあり、デバイス上の計算リソースとメモリ リソースが制限されているために課題が生じます。
GPU を搭載したモバイル デバイス上で、これまでに報告されている最速の推論レイテンシー (Samsung S23 Ultra 上の int8 量子化なしの Stable Diffusion 1.4 で 20 反復の 512×512 画像で 12 秒未満) を達成する、大規模拡散モデルの一連の実装最適化を紹介します。

これらの機能強化により、生成 AI の適用可能性が広がり、幅広いデバイスにわたる全体的なユーザー エクスペリエンスが向上します。

要約(オリジナル)

The rapid development and application of foundation models have revolutionized the field of artificial intelligence. Large diffusion models have gained significant attention for their ability to generate photorealistic images and support various tasks. On-device deployment of these models provides benefits such as lower server costs, offline functionality, and improved user privacy. However, common large diffusion models have over 1 billion parameters and pose challenges due to restricted computational and memory resources on devices. We present a series of implementation optimizations for large diffusion models that achieve the fastest reported inference latency to-date (under 12 seconds for Stable Diffusion 1.4 without int8 quantization on Samsung S23 Ultra for a 512×512 image with 20 iterations) on GPU-equipped mobile devices. These enhancements broaden the applicability of generative AI and improve the overall user experience across a wide range of devices.

arxiv情報

著者 Yu-Hui Chen,Raman Sarokin,Juhyun Lee,Jiuqiang Tang,Chuo-Ling Chang,Andrei Kulik,Matthias Grundmann
発行日 2023-06-16 17:04:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク