UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model

要約

最近、マルチモーダル大規模言語モデル (MLLM) の分野で大幅な進歩が達成され、多様なタスクにわたる理解と推論におけるその優れた能力が証明されています。
ただし、これらのモデルは特定のタスク向けにトレーニングされることが多く、タスク固有の入出力形式に依存しているため、より広範囲のタスクへの適用が制限されます。
これにより、根本的な疑問が生じます。MLLM の汎用性を最大化するために、さまざまなマルチモーダル タスクを表現および処理するための統一されたアプローチを開発できるでしょうか?
この論文では、統一された表現を使用してさまざまなタスクを表現するように設計された包括的なモデルである UnifiedMLLM を提案します。
私たちのモデルは、ユーザーの指示の暗黙の意図を理解し、推論を実行する際に強力な機能を発揮します。
このモデルは、テキスト応答の生成に加えて、タスク タイプとタスクの粒度の指標として機能するタスク トークンとグラウンディング トークンも出力します。
これらの出力は、その後タスク ルーターを介してルーティングされ、タスクを完了するために特定のエキスパート モデルに送られます。
モデルをトレーニングするために、タスク固有のデータセットと、複雑なシナリオを含む 100,000 個のマルチタスク データセットを構築します。
3 段階のトレーニング戦略を採用することで、一般化能力と知識の蓄積を維持しながら、モデルに堅牢な推論能力とタスク処理能力を装備します。
広範な実験により、さまざまなタスクにわたる統合表現アプローチの優れたパフォーマンスが実証され、既存の方法論を超えています。
さらに、私たちのアプローチは優れた拡張性と汎用性を示します。
私たちのコード、モデル、データセットは \url{https://github.com/lzw-lzw/UnifiedMLLM} で入手できます。

要約(オリジナル)

Significant advancements has recently been achieved in the field of multi-modal large language models (MLLMs), demonstrating their remarkable capabilities in understanding and reasoning across diverse tasks. However, these models are often trained for specific tasks and rely on task-specific input-output formats, limiting their applicability to a broader range of tasks. This raises a fundamental question: Can we develop a unified approach to represent and handle different multi-modal tasks to maximize the generalizability of MLLMs? In this paper, we propose UnifiedMLLM, a comprehensive model designed to represent various tasks using a unified representation. Our model exhibits strong capabilities in comprehending the implicit intent of user instructions and preforming reasoning. In addition to generating textual responses, our model also outputs task tokens and grounding tokens, serving as indicators of task types and task granularity. These outputs are subsequently routed through the task router and directed to specific expert models for task completion. To train our model, we construct a task-specific dataset and an 100k multi-task dataset encompassing complex scenarios. Employing a three-stage training strategy, we equip our model with robust reasoning and task processing capabilities while preserving its generalization capacity and knowledge reservoir. Extensive experiments showcase the impressive performance of our unified representation approach across various tasks, surpassing existing methodologies. Furthermore, our approach exhibits exceptional scalability and generality. Our code, model, and dataset will be available at \url{https://github.com/lzw-lzw/UnifiedMLLM}.

arxiv情報

著者 Zhaowei Li,Wei Wang,YiQing Cai,Xu Qi,Pengyu Wang,Dong Zhang,Hang Song,Botian Jiang,Zhida Huang,Tao Wang
発行日 2024-08-05 14:27:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク