Chameleon: Mixed-Modal Early-Fusion Foundation Models

要約

任意のシーケンスで画像とテキストを理解し、生成できる早期融合トークンベースの混合モーダルモデルのファミリーであるカメレオンを紹介します。
インセプションからの安定したトレーニングアプローチ、アラインメントレシピ、および早期融合のトークンベースの混合モーダル設定に合わせて調整されたアーキテクチャパラメーター化の概要を説明します。
モデルは、視覚的な質問への回答、画像キャプション、テキスト生成、画像生成、長期の混合モーダル生成など、包括的な範囲のタスクで評価されます。
Chameleonは、画像キャプションタスクの最先端のパフォーマンスを含む幅広い一般的な機能を実証し、Mixtral 8x7bやGemini-Proなどのモデルと競合しながら、テキストのみのタスクでLlama-2を上回り、すべてのモデルで非自明の画像生成を実行します。
また、Gemini ProやGPT-4Vを含むはるかに大きなモデルのパフォーマンスと一致またはそれを超えています。これは、プロンプトまたは出力に画像とテキストの両方の混合シーケンスが含まれている、新しい長型混合モーダル生成評価に関する人間の判断によるとです。
カメレオンは、完全なマルチモーダルドキュメントの統一されたモデリングで大きな前進を示しています。

要約(オリジナル)

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.

arxiv情報

著者 Chameleon Team
発行日 2025-03-21 05:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク