MMAR: Towards Lossless Multi-Modal Auto-Regressive Prababilistic Modeling

要約

マルチモーダル大規模言語モデルの最近の進歩により、画像の理解と生成の両方が可能な共同確率モデルの開発が推進されています。
しかし、最近の方法では、画像の離散化または拡散ノイズ除去ステップのいずれかにより、タスクを理解する際に画像情報の損失が避けられないことが判明しました。
この問題に対処するために、新しいマルチモーダル自己回帰 (MMAR) 確率モデリング フレームワークを提案します。
離散化系の手法とは異なり、MMAR は連続値のイメージ トークンを取り込んで情報損失を回避します。
拡散ベースのアプローチとは異なり、各自動回帰画像パッチ埋め込みの上に軽量拡散ヘッドを採用することで、自己回帰バックボーン モデルから拡散プロセスを解きほぐします。
このように、モデルが画像生成からテキスト生成を介した理解に移行するとき、バックボーン モデルの画像の隠蔽表現は最後のノイズ除去ステップに限定されません。
私たちのメソッドをうまくトレーニングするために、数値安定性の問題に対処する理論的に証明された手法と、タスク目標の生成と理解のバランスをとるト​​レーニング戦略も提案します。
18 の画像理解ベンチマークの広範な評価を通じて、MMAR は他の統合マルチモーダル モデルよりもはるかに優れたパフォーマンスを示し、事前学習済みの CLIP ビジョン エンコーダーを使用する方法と一致し、同時に高品質の画像を生成できます。
また、私たちの方法がより大きなデータとモデルのサイズにも拡張可能であることも示しました。

要約(オリジナル)

Recent advancements in multi-modal large language models have propelled the development of joint probabilistic models capable of both image understanding and generation. However, we have identifed that recent methods inevitably suffer from loss of image information during understanding task, due to either image discretization or diffusion denoising steps. To address this issue, we propose a novel Multi-Modal Auto-Regressive (MMAR) probabilistic modeling framework. Unlike discretization line of method, MMAR takes in continuous-valued image tokens to avoid information loss. Differing from diffusion-based approaches, we disentangle the diffusion process from auto-regressive backbone model by employing a light-weight diffusion head on top each auto-regressed image patch embedding. In this way, when the model transits from image generation to understanding through text generation, the backbone model’s hidden representation of the image is not limited to the last denoising step. To successfully train our method, we also propose a theoretically proven technique that addresses the numerical stability issue and a training strategy that balances the generation and understanding task goals. Through extensive evaluations on 18 image understanding benchmarks, MMAR demonstrates much more superior performance than other joint multi-modal models, matching the method that employs pretrained CLIP vision encoder, meanwhile being able to generate high quality images at the same time. We also showed that our method is scalable with larger data and model size.

arxiv情報

著者 Jian Yang,Dacheng Yin,Yizhou Zhou,Fengyun Rao,Wei Zhai,Yang Cao,Zheng-Jun Zha
発行日 2024-10-14 17:57:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク