要約
マルチモーダル大規模言語モデルの最近の進歩は、さまざまなモダリティ タスクに取り組んでいますが、複雑なマルチモーダリティ タスクに対する統合機能が限られているため、この分野の発展が制約されています。
この研究では、私たちは、大規模言語モデルと、対応する事前トレーニング済みタスク モデルをタスク固有のトークンでバインドする、モダリティ タスク統合のための統一フレームワークである LLMBind を率先して調査し、提案します。
その結果、LLMBind は入力を解釈し、画像、テキスト、ビデオ、オーディオの多彩な組み合わせで出力を生成できます。
具体的には、多様な専門家間の協力を通じて、さまざまな複合タスクの効果的な学習を可能にする専門家混合手法を導入します。
さらに、400k の命令データで構成されるマルチタスク データセットを作成し、インタラクティブなビジュアル生成および編集タスクの機能を解放します。
広範な実験により、画像、ビデオ、オーディオ生成、画像セグメンテーション、画像編集などのさまざまなタスクにわたるフレームワークの有効性が示されています。
さらに心強いのは、私たちのフレームワークは他のモダリティ タスクにも簡単に拡張でき、ユニバーサル モダリティをモデル化するための統合 AI エージェントを作成できる有望な可能性を示しています。
要約(オリジナル)
While recent progress in multimodal large language models tackles various modality tasks, they posses limited integration capabilities for complex multi-modality tasks, consequently constraining the development of the field. In this work, we take the initiative to explore and propose the LLMBind, a unified framework for modality task integration, which binds Large Language Models and corresponding pre-trained task models with task-specific tokens. Consequently, LLMBind can interpret inputs and produce outputs in versatile combinations of image, text, video, and audio. Specifically, we introduce a Mixture-of-Experts technique to enable effective learning for different multimodal tasks through collaboration among diverse experts. Furthermore, we create a multi-task dataset comprising 400k instruction data, which unlocks the ability for interactive visual generation and editing tasks. Extensive experiments show the effectiveness of our framework across various tasks, including image, video, audio generation, image segmentation, and image editing. More encouragingly, our framework can be easily extended to other modality tasks, showcasing the promising potential of creating a unified AI agent for modeling universal modalities.
arxiv情報
著者 | Bin Zhu,Peng Jin,Munan Ning,Bin Lin,Jinfa Huang,Qi Song,Junwu Zhang,Zhenyu Tang,Mingjun Pan,Xing Zhou,Li Yuan |
発行日 | 2024-02-26 06:44:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google