要約
インタラクティブな自然言語タスクにおける大規模な言語モデルのゼロショット パフォーマンスには、高品質の命令と応答が不可欠です。
複雑な視覚シーンを含むインタラクティブな視覚言語タスクの場合、視覚言語モデル (VLM) を調整するには、大量の多様で創造的な命令と応答のペアが不可欠です。
それにもかかわらず、量、多様性、創造性の点で現在利用可能な視覚言語の命令と応答のペアは依然として限られており、インタラクティブ VLM の一般化に課題をもたらしています。
ここでは、画像とビデオから派生した 220 万の固有の命令を含む、280 万のマルチモーダル命令応答ペアで構成されるデータセットである MultI-Modal In-Context struction Tuning (MIMIC-IT) を紹介します。
各ペアには、マルチモーダルなコンテキスト内情報が伴い、VLM の認識、推論、計画を強化することを目的とした会話コンテキストを形成します。
Syphus と呼ばれる命令応答収集プロセスは、人間の専門知識と GPT の機能を組み合わせた自動注釈パイプラインを使用して拡張されます。
MIMIC-IT データセットを使用して、Otter という名前の大規模な VLM をトレーニングします。
視覚言語ベンチマークで行われた広範な評価に基づいて、Otter はマルチモーダルな知覚、推論、およびコンテキスト内学習において顕著な熟練度を示していることが観察されています。
人間による評価により、それがユーザーの意図と効果的に一致していることがわかります。
MIMIC-IT データセット、命令応答収集パイプライン、ベンチマーク、および Otter モデルをリリースします。
要約(オリジナル)
High-quality instructions and responses are essential for the zero-shot performance of large language models on interactive natural language tasks. For interactive vision-language tasks involving intricate visual scenes, a large quantity of diverse and creative instruction-response pairs should be imperative to tune vision-language models (VLMs). Nevertheless, the current availability of vision-language instruction-response pairs in terms of quantity, diversity, and creativity remains limited, posing challenges to the generalization of interactive VLMs. Here we present MultI-Modal In-Context Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal instruction-response pairs, with 2.2 million unique instructions derived from images and videos. Each pair is accompanied by multi-modal in-context information, forming conversational contexts aimed at empowering VLMs in perception, reasoning, and planning. The instruction-response collection process, dubbed as Syphus, is scaled using an automatic annotation pipeline that combines human expertise with GPT’s capabilities. Using the MIMIC-IT dataset, we train a large VLM named Otter. Based on extensive evaluations conducted on vision-language benchmarks, it has been observed that Otter demonstrates remarkable proficiency in multi-modal perception, reasoning, and in-context learning. Human evaluation reveals it effectively aligns with the user’s intentions. We release the MIMIC-IT dataset, instruction-response collection pipeline, benchmarks, and the Otter model.
arxiv情報
著者 | Bo Li,Yuanhan Zhang,Liangyu Chen,Jinghao Wang,Fanyi Pu,Jingkang Yang,Chunyuan Li,Ziwei Liu |
発行日 | 2023-06-08 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google