LLMBind: A Unified Modality-Task Integration Framework

要約

マルチモーダル ドメインでは、さまざまなモデルが特定の入力形式に依存しているため、ユーザーの混乱が生じ、進歩が妨げられます。
この課題に対処するために、さまざまなマルチモーダル タスクを統合するように設計された新しいフレームワークである \textbf{LLMBind} を導入します。
Mixture-of-Experts (MoE) Large Language Model (LLM) を利用することで、LLMBind はマルチモーダル入力を処理し、タスク固有のトークンを生成し、対応するモデルを呼び出してタスクを実行できるようにします。
この独自のアプローチにより、LLMBind は入力を解釈し、画像、テキスト、ビデオ、オーディオなどのさまざまなモダリティにわたって出力を生成できるようになります。
さらに、400k 命令で構成されるインタラクション データセットを構築しました。これにより、インタラクティブなビジュアル生成および編集タスクのための LLMBind の機能が解放されます。
広範な実験により、LLMBind がさまざまなタスクにわたって非常に優れたパフォーマンスを達成し、現実世界のシナリオで行われたユーザー評価において既存のモデルを上回るパフォーマンスを発揮することが実証されました。
さらに、LLMBind の適応性により、最新モデルとのシームレスな統合や新しいモダリティ タスクへの拡張が可能になり、ユニバーサル モダリティをモデリングするための統合 AI エージェントとして機能する可能性が強調されます。

要約(オリジナル)

In the multi-modal domain, the dependence of various models on specific input formats leads to user confusion and hinders progress. To address this challenge, we introduce \textbf{LLMBind}, a novel framework designed to unify a diverse array of multi-modal tasks. By harnessing a Mixture-of-Experts (MoE) Large Language Model (LLM), LLMBind processes multi-modal inputs and generates task-specific tokens, enabling the invocation of corresponding models to accomplish tasks. This unique approach empowers LLMBind to interpret inputs and generate outputs across various modalities, including image, text, video, and audio. Furthermore, we have constructed an interaction dataset comprising 400k instructions, which unlocks the ability of LLMBind for interactive visual generation and editing tasks. Extensive experimentation demonstrates that LLMBind achieves very superior performance across diverse tasks and outperforms existing models in user evaluations conducted in real-world scenarios. Moreover, the adaptability of LLMBind allows for seamless integration with the latest models and extension to new modality tasks, highlighting its potential to serve as a unified AI agent for modeling universal modalities.

arxiv情報

著者 Bin Zhu,Munan Ning,Peng Jin,Bin Lin,Jinfa Huang,Qi Song,Junwu Zhang,Zhenyu Tang,Mingjun Pan,Xing Zhou,Li Yuan
発行日 2024-04-19 03:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク