MultiModal-GPT: A Vision and Language Model for Dialogue with Humans

要約

タイトル: MultiModal-GPT:人間との対話のためのビジョンと言語モデル

要約:
– MultiModal-GPTは、人間とのマルチラウンド対話を行うためのビジョンと言語モデルである。
– MultiModal-GPTは、人間からのさまざまな指示に従うことができる。たとえば、詳細なキャプションの生成、関心のあるオブジェクトの数のカウント、およびユーザーからの一般的な質問に答えることができる。
– MultiModal-GPTは、OpenFlamingoからパラメータに効率よく微調整され、言語モデルのクロスアテンション部とセルフアテンション部の両方にLow-rank Adapter(LoRA)が追加されている。
– 最初に、多様なモダリティの指示チューニングのためのビジョンと言語データを使用し、指示テンプレートを構築してモデルが人間の指示を理解し、それに従えるようにする。
– トレーニングデータの品質は、対話のパフォーマンスにとって重要であり、短い回答しか含まないデータは、モデルがどんな指示に対しても簡潔に応答することにつながる可能性がある。
– MultiModal-GPTの人間とのチャットの能力をさらに向上させるために、言語だけの指示に従うデータを使用してMultiModal-GPTを共同トレーニングすることを提案。
– 言語だけと視覚-言語の指示を同じ指示テンプレートで共同トレーニングすることで、対話パフォーマンスが効果的に改善される。
– MultiModal-GPTのさまざまなデモンストレーションは、人間との連続的な対話の能力を示している。コード、データセット、およびデモは、https://github.com/open-mmlab/Multimodal-GPTにあります。

要約(オリジナル)

We present a vision and language model named MultiModal-GPT to conduct multi-round dialogue with humans. MultiModal-GPT can follow various instructions from humans, such as generating a detailed caption, counting the number of interested objects, and answering general questions from users. MultiModal-GPT is parameter-efficiently fine-tuned from OpenFlamingo, with Low-rank Adapter (LoRA) added both in the cross-attention part and the self-attention part of the language model. We first construct instruction templates with vision and language data for multi-modality instruction tuning to make the model understand and follow human instructions. We find the quality of training data is vital for the dialogue performance, where few data containing short answers can lead the model to respond shortly to any instructions. To further enhance the ability to chat with humans of the MultiModal-GPT, we utilize language-only instruction-following data to train the MultiModal-GPT jointly. The joint training of language-only and visual-language instructions with the \emph{same} instruction template effectively improves dialogue performance. Various demos show the ability of continuous dialogue of MultiModal-GPT with humans. Code, dataset, and demo are at https://github.com/open-mmlab/Multimodal-GPT

arxiv情報

著者 Tao Gong,Chengqi Lyu,Shilong Zhang,Yudong Wang,Miao Zheng,Qian Zhao,Kuikun Liu,Wenwei Zhang,Ping Luo,Kai Chen
発行日 2023-05-09 11:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク