要約
以前のオープンソースの大規模マルチモーダル モデル (LMM) は、いくつかの制限に直面していました。(1) 多くの場合、ネイティブ統合が欠如しており、視覚表現を事前にトレーニングされた大規模言語モデル (LLM) と調整するアダプターが必要です。
(2) 多くは単一モードの生成に制限されています。
(3) マルチモーダル生成をサポートするものもありますが、ビジュアル モデリングと生成には個別の拡散モデルに依存しています。
これらの制限を軽減するために、インターリーブされた画像とテキストを生成するための、オープンで自己回帰的なネイティブの大規模マルチモーダル モデルである Anole を紹介します。
私たちは Meta AI の Chameleon から Anole を構築し、データ効率とパラメータ効率の両方を備えた革新的な微調整戦略を採用しています。
Anole は、高品質で一貫したマルチモーダル生成機能を実証します。
私たちはモデル、トレーニング フレームワーク、および命令調整データをオープンソース化しました。
要約(オリジナル)
Previous open-source large multimodal models (LMMs) have faced several limitations: (1) they often lack native integration, requiring adapters to align visual representations with pre-trained large language models (LLMs); (2) many are restricted to single-modal generation; (3) while some support multimodal generation, they rely on separate diffusion models for visual modeling and generation. To mitigate these limitations, we present Anole, an open, autoregressive, native large multimodal model for interleaved image-text generation. We build Anole from Meta AI’s Chameleon, adopting an innovative fine-tuning strategy that is both data-efficient and parameter-efficient. Anole demonstrates high-quality, coherent multimodal generation capabilities. We have open-sourced our model, training framework, and instruction tuning data.
arxiv情報
著者 | Ethan Chern,Jiadi Su,Yan Ma,Pengfei Liu |
発行日 | 2024-07-08 17:08:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google