TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild

要約

命令追従能力を持つ大規模な言語モデルは、人工知能の分野に革命をもたらした。これらのモデルは、自然言語インターフェースを通じて、様々な実世界タスクに取り組むための卓越した汎用性を示す。しかし、その性能は、しばしば入手が困難な高品質の模範データに大きく依存している。この課題は、マルチモーダルな指示に従うことになると、さらに悪化する。我々はTextBindを紹介する。TextBindは、より大きな言語モデルに、マルチモーダルな命令追従機能を持たせるための、ほとんどアノテーションのないフレームワークである。我々のアプローチでは、画像とキャプションのペアのみを必要とし、言語モデルからマルチターンマルチモーダル指示応答会話を生成する。インターリーブされた画像とテキストの入力と出力に対応するために、画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心のアーキテクチャであるMIMを考案する。我々は、データセット、モデル、デモを公開することで、マルチモーダル指導の分野における今後の研究を促進する。

要約(オリジナル)

Large language models with instruction-following abilities have revolutionized the field of artificial intelligence. These models show exceptional generalizability to tackle various real-world tasks through their natural language interfaces. However, their performance heavily relies on high-quality exemplar data, which is often difficult to obtain. This challenge is further exacerbated when it comes to multimodal instruction following. We introduce TextBind, an almost annotation-free framework for empowering larger language models with the multi-turn interleaved multimodal instruction-following capabilities. Our approach requires only image-caption pairs and generates multi-turn multimodal instruction-response conversations from a language model. To accommodate interleaved image-text inputs and outputs, we devise MIM, a language model-centric architecture that seamlessly integrates image encoder and decoder models. We release our dataset, model, and demo to foster future research in the area of multimodal instruction following.

arxiv情報

著者 Huayang Li,Siheng Li,Deng Cai,Longyue Wang,Lemao Liu,Taro Watanabe,Yujiu Yang,Shuming Shi
発行日 2024-06-03 13:39:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク