u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

要約

LLaVA や Mini-GPT4 などの最近の進歩により、視覚情報を LLM に統合することに成功し、刺激的な結果が得られ、新世代のマルチモーダル LLM (MLLM) が誕生しました。
それにもかかわらず、これらの方法は、幻覚やタスク間の相互干渉に悩まされます。
これらの問題に対処するために、私たちは LLM を複数のエキスパート モデルを接続するブリッジとして利用することで、下流のタスクに適応する効率的かつ正確なアプローチ、すなわち u-LLaVA を提案します。
まず、モダリティ調整モジュールとマルチタスク モジュールを LLM に組み込みます。
次に、マルチタイプの公開データセットを再編成または再構築して、効率的なモダリティの調整と指示のフォローを可能にします。
最後に、タスク固有の情報がトレーニングされた LLM から抽出され、下流のタスクを解決するためにさまざまなモジュールに提供されます。
全体的なフレームワークはシンプルかつ効果的で、複数のベンチマークにわたって最先端のパフォーマンスを実現します。
また、モデル、生成されたデータ、および一般に利用可能なコード ベースもリリースします。

要約(オリジナル)

Recent advances such as LLaVA and Mini-GPT4 have successfully integrated visual information into LLMs, yielding inspiring outcomes and giving rise to a new generation of multi-modal LLMs, or MLLMs. Nevertheless, these methods struggle with hallucinations and the mutual interference between tasks. To tackle these problems, we propose an efficient and accurate approach to adapt to downstream tasks by utilizing LLM as a bridge to connect multiple expert models, namely u-LLaVA. Firstly, we incorporate the modality alignment module and multi-task modules into LLM. Then, we reorganize or rebuild multi-type public datasets to enable efficient modality alignment and instruction following. Finally, task-specific information is extracted from the trained LLM and provided to different modules for solving downstream tasks. The overall framework is simple, effective, and achieves state-of-the-art performance across multiple benchmarks. We also release our model, the generated data, and the code base publicly available.

arxiv情報

著者 Jinjin Xu,Liwu Xu,Yuzhe Yang,Xiang Li,Yanchun Xie,Yi-Jie Huang,Yaqian Li
発行日 2023-11-09 13:18:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク