CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation

要約

CoDi-2 は、複雑なマルチモーダルのインターリーブ命令に従い、コンテキスト内学習 (ICL)、推論、チャット、編集などを Any-to-Any で行うことができる、多用途でインタラクティブなマルチモーダル大規模言語モデル (MLLM) です。
入出力モダリティのパラダイム。
CoDi-2 は、エンコードと生成の両方においてモダリティを言語と調整することで、大規模言語モデル (LLM) が複雑なモダリティにインターリーブされた命令やコンテキスト内の例を理解できるだけでなく、連続特徴空間で根拠のある一貫したマルチモーダル出力を自己回帰的に生成できるようにします。

CoDi-2 をトレーニングするために、テキスト、視覚、音声にわたるコンテキスト内のマルチモーダル命令を含む大規模な生成データセットを構築します。
CoDi-2 は、コンテキスト内の学習、推論、マルチラウンドのインタラクティブな会話による任意対任意のモダリティ生成の構成性など、マルチモーダル生成のための幅広いゼロショット機能を実証します。
CoDi-2 は、被写体主導の画像生成、視覚変換、オーディオ編集などのタスクにおいて、以前のドメイン固有モデルを上回っています。
CoDi-2 は、コンテキスト内で言語、視覚、音声がインターリーブされた命令を解釈し、マルチモーダル出力を生成することに熟達した、包括的なマルチモーダル基盤モデルの開発における大幅な進歩を意味します。

要約(オリジナル)

We present CoDi-2, a versatile and interactive Multimodal Large Language Model (MLLM) that can follow complex multimodal interleaved instructions, conduct in-context learning (ICL), reason, chat, edit, etc., in an any-to-any input-output modality paradigm. By aligning modalities with language for both encoding and generation, CoDi-2 empowers Large Language Models (LLMs) to not only understand complex modality-interleaved instructions and in-context examples, but also autoregressively generate grounded and coherent multimodal outputs in the continuous feature space. To train CoDi-2, we build a large-scale generation dataset encompassing in-context multimodal instructions across text, vision, and audio. CoDi-2 demonstrates a wide range of zero-shot capabilities for multimodal generation, such as in-context learning, reasoning, and compositionality of any-to-any modality generation through multi-round interactive conversation. CoDi-2 surpasses previous domain-specific models on tasks such as subject-driven image generation, vision transformation, and audio editing. CoDi-2 signifies a substantial breakthrough in developing a comprehensive multimodal foundation model adept at interpreting in-context language-vision-audio interleaved instructions and producing multimodal outputs.

arxiv情報

著者 Zineng Tang,Ziyi Yang,Mahmoud Khademi,Yang Liu,Chenguang Zhu,Mohit Bansal
発行日 2023-11-30 18:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SD, eess.AS パーマリンク