要約
X-Fusionを提案します。これは、言語機能を維持しながら、マルチモーダルタスクの前提条件の大規模な言語モデル(LLM)を拡張するフレームワークです。
X-Fusionは、モダリティ固有の重みを備えたデュアルタワーデザインを採用しており、LLMのパラメーターを凍結しながら、理解と生成の両方に視力固有の情報を統合します。
私たちの実験は、X融合が、画像間およびテキストから画像への両方のタスクの両方の代替アーキテクチャを常に上回ることを示しています。
理解に焦点を当てたデータを組み込むと、生成の品質が向上し、画像データノイズが低下すると全体的なパフォーマンスが向上し、特徴のアライメントが小規模なモデルの収束を加速しますが、大きなモデルには最小限の影響を与えることがわかります。
私たちの調査結果は、効率的な統一マルチモーダルモデルを構築するための貴重な洞察を提供します。
要約(オリジナル)
We propose X-Fusion, a framework that extends pretrained Large Language Models (LLMs) for multimodal tasks while preserving their language capabilities. X-Fusion employs a dual-tower design with modality-specific weights, keeping the LLM’s parameters frozen while integrating vision-specific information for both understanding and generation. Our experiments demonstrate that X-Fusion consistently outperforms alternative architectures on both image-to-text and text-to-image tasks. We find that incorporating understanding-focused data improves generation quality, reducing image data noise enhances overall performance, and feature alignment accelerates convergence for smaller models but has minimal impact on larger ones. Our findings provide valuable insights into building efficient unified multimodal models.
arxiv情報
著者 | Sicheng Mo,Thao Nguyen,Xun Huang,Siddharth Srinivasan Iyer,Yijun Li,Yuchen Liu,Abhishek Tandon,Eli Shechtman,Krishna Kumar Singh,Yong Jae Lee,Bolei Zhou,Yuheng Li |
発行日 | 2025-04-29 17:59:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google