要約
命令追従能力を持つ大規模な言語モデルは、人工知能の分野に革命をもたらした。これらのモデルは、自然言語インターフェースを通じて、様々な実世界タスクに取り組むための卓越した汎用性を示す。しかし、その性能は、しばしば入手が困難な高品質の模範データに大きく依存している。この課題は、マルチモーダルな指示に従うことになると、さらに悪化する。我々はTextBindを紹介する。TextBindは、より大きな言語モデルに、マルチモーダルな命令追従機能を持たせるための、ほとんどアノテーションのないフレームワークである。我々のアプローチでは、画像とキャプションのペアのみを必要とし、言語モデルからマルチターンマルチモーダル指示応答会話を生成する。インターリーブされた画像とテキストの入力と出力に対応するために、画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心のアーキテクチャであるMIMを考案する。我々は、データセット、モデル、デモを公開することで、マルチモーダル指導の分野における今後の研究を促進する。
要約(オリジナル)
Large language models with instruction-following abilities have revolutionized the field of artificial intelligence. These models show exceptional generalizability to tackle various real-world tasks through their natural language interfaces. However, their performance heavily relies on high-quality exemplar data, which is often difficult to obtain. This challenge is further exacerbated when it comes to multimodal instruction following. We introduce TextBind, an almost annotation-free framework for empowering larger language models with the multi-turn interleaved multimodal instruction-following capabilities. Our approach requires only image-caption pairs and generates multi-turn multimodal instruction-response conversations from a language model. To accommodate interleaved image-text inputs and outputs, we devise MIM, a language model-centric architecture that seamlessly integrates image encoder and decoder models. We release our dataset, model, and demo to foster future research in the area of multimodal instruction following.
arxiv情報
著者 | Huayang Li,Siheng Li,Deng Cai,Longyue Wang,Lemao Liu,Taro Watanabe,Yujiu Yang,Shuming Shi |
発行日 | 2024-06-03 13:39:40+00:00 |
arxivサイト | arxiv_id(pdf) |