MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

要約

大規模な言語モデルは、さまざまな言語関連アプリケーションの汎用インターフェイスとして顕著な機能を示しています。
これを動機として、私たちは、画像の説明、視覚的な質問への応答、視覚的なグラウンディングなど、多くの視覚言語タスクを完了するための統一インターフェイスを構築することを目標としています。
課題は、単一のモデルを使用して、単純なマルチモーダル命令で多様な視覚言語タスクを効果的に実行することです。
この目的に向けて、さまざまな視覚言語タスクをより適切に処理するための統合インターフェイスとして扱うことができるモデルである MiniGPT-v2 を紹介します。
モデルをトレーニングする際には、さまざまなタスクに一意の識別子を使用することを提案します。
これらの識別子により、モデルは各タスクの指示を簡単に区別できるようになり、各タスクのモデルの学習効率も向上します。
3 段階のトレーニング後の実験結果は、MiniGPT-v2 が他の視覚言語ジェネラリスト モデルと比較して、多くの視覚的質問応答および視覚的グラウンディング ベンチマークで優れたパフォーマンスを達成することを示しています。
私たちのモデルとコードは https://minigpt-v2.github.io/ で入手できます。

要約(オリジナル)

Large language models have shown their remarkable capabilities as a general interface for various language-related applications. Motivated by this, we target to build a unified interface for completing many vision-language tasks including image description, visual question answering, and visual grounding, among others. The challenge is to use a single model for performing diverse vision-language tasks effectively with simple multi-modal instructions. Towards this objective, we introduce MiniGPT-v2, a model that can be treated as a unified interface for better handling various vision-language tasks. We propose using unique identifiers for different tasks when training the model. These identifiers enable our model to better distinguish each task instruction effortlessly and also improve the model learning efficiency for each task. After the three-stage training, the experimental results show that MiniGPT-v2 achieves strong performance on many visual question-answering and visual grounding benchmarks compared to other vision-language generalist models. Our model and codes are available at https://minigpt-v2.github.io/

arxiv情報

著者 Jun Chen,Deyao Zhu,Xiaoqian Shen,Xiang Li,Zechun Liu,Pengchuan Zhang,Raghuraman Krishnamoorthi,Vikas Chandra,Yunyang Xiong,Mohamed Elhoseiny
発行日 2023-11-07 18:25:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク