Auto-Encoding Morph-Tokens for Multimodal LLM

要約

マルチモーダルLLMにとって、視覚的理解(テキスト出力)と視覚的生成(視覚出力)の相乗効果は継続的な課題である。これは相反する目的によるものである。理解のためにはMLLMは視覚を抽象化する必要があり、生成のためには視覚を可能な限り保存する必要がある。このように、視覚トークンにとってこの目的はジレンマである。この矛盾を解決するために、我々は画像をモーフトーケンに符号化し、2つの目的を果たすことを提案する。理解時には、モーフトーケンはMLLMにテキスト生成を指示する視覚的プロンプトとして機能し、生成時には、モーフトーケンは画像再構成のための完全なビジュアルトーケンとして、欠落した視覚的手がかりをMLLMが復元するという、矛盾しない別の役割を担う。広範な実験により、モーフトーケンはマルチモーダル理解と生成のための新しいSOTAを同時に達成できることが示されている。我々のプロジェクトはhttps://github.com/DCDmllm/MorphTokens。

要約(オリジナル)

For multimodal LLMs, the synergy of visual comprehension (textual output) and generation (visual output) presents an ongoing challenge. This is due to a conflicting objective: for comprehension, an MLLM needs to abstract the visuals; for generation, it needs to preserve the visuals as much as possible. Thus, the objective is a dilemma for visual-tokens. To resolve the conflict, we propose encoding images into morph-tokens to serve a dual purpose: for comprehension, they act as visual prompts instructing MLLM to generate texts; for generation, they take on a different, non-conflicting role as complete visual-tokens for image reconstruction, where the missing visual cues are recovered by the MLLM. Extensive experiments show that morph-tokens can achieve a new SOTA for multimodal comprehension and generation simultaneously. Our project is available at https://github.com/DCDmllm/MorphTokens.

arxiv情報

著者 Kaihang Pan,Siliang Tang,Juncheng Li,Zhaoyu Fan,Wei Chow,Shuicheng Yan,Tat-Seng Chua,Yueting Zhuang,Hanwang Zhang
発行日 2024-05-03 08:43:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク