NExT-GPT: Any-to-Any Multimodal LLM

要約

最近、マルチモーダル大規模言語モデル (MM-LLM) は目覚ましい進歩を遂げていますが、そのほとんどは、複数のモダリティでコンテンツを生成する機能がなく、入力側のマルチモーダル理解のみの制限の犠牲になっています。
私たち人間は常にさまざまなモダリティを通じて世界を認識し、人々とコミュニケーションをとるため、あらゆるモダリティのコンテンツを受け入れて配信できる Any-to-Any MM-LLM の開発は、人間レベルの AI にとって不可欠になります。
このギャップを埋めるために、エンドツーエンドの汎用 Any-to-Any MM-LLM システム NExT-GPT を紹介します。
LLM をマルチモーダル アダプターおよびさまざまな拡散デコーダーに接続し、NExT-GPT が入力を認識し、テキスト、画像、ビデオ、オーディオの任意の組み合わせで出力を生成できるようにします。
既存の十分にトレーニングされた高性能エンコーダーとデコーダーを活用することで、NExT-GPT は特定の投影レイヤーの少量のパラメーター (1%) だけで調整されます。これにより、低コストのトレーニングにメリットがあるだけでなく、より多くの機能への便利な拡張も容易になります。
潜在的なモダリティ。
さらに、モダリティ切り替え命令チューニング (MosIT) を導入し、MosIT 用の高品質なデータセットを手動でキュレーションします。これに基づいて、NExT-GPT は複雑なクロスモーダルの意味理解とコンテンツ生成を強化します。
全体として、私たちの研究は、普遍的なモダリティをモデル化できる AI エージェントを構築できる有望な可能性を示し、コミュニティでより人間らしい AI 研究への道を切り開きます。

要約(オリジナル)

While recently Multimodal Large Language Models (MM-LLMs) have made exciting strides, they mostly fall prey to the limitation of only input-side multimodal understanding, without the ability to produce content in multiple modalities. As we humans always perceive the world and communicate with people through various modalities, developing any-to-any MM-LLMs capable of accepting and delivering content in any modality becomes essential to human-level AI. To fill the gap, we present an end-to-end general-purpose any-to-any MM-LLM system, NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion decoders, enabling NExT-GPT to perceive inputs and generate outputs in arbitrary combinations of text, images, videos, and audio. By leveraging the existing well-trained highly-performing encoders and decoders, NExT-GPT is tuned with only a small amount of parameter (1%) of certain projection layers, which not only benefits low-cost training and also facilitates convenient expansion to more potential modalities. Moreover, we introduce a modality-switching instruction tuning (MosIT) and manually curate a high-quality dataset for MosIT, based on which NExT-GPT is empowered with complex cross-modal semantic understanding and content generation. Overall, our research showcases the promising possibility of building an AI agent capable of modeling universal modalities, paving the way for more human-like AI research in the community.

arxiv情報

著者 Shengqiong Wu,Hao Fei,Leigang Qu,Wei Ji,Tat-Seng Chua
発行日 2023-09-11 15:02:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク