ImageBind-LLM: Multi-modality Instruction Tuning

要約

ImageBind-LLM は、ImageBind を介した大規模言語モデル (LLM) のマルチモダリティ命令チューニング手法を紹介します。
既存の研究は主に言語と画像命令のチューニングに焦点を当てていますが、それとは異なり、私たちのImageBind-LLMは、画像とテキストの位置合わせトレーニングのみで、オーディオ、3D点群、ビデオ、およびそれらの埋め込み空間演算を含むマルチモダリティ条件に応答できます。
トレーニング中に、学習可能なバインド ネットワークを採用して、LLaMA と ImageBind の画像エンコーダーの間の埋め込みスペースを調整します。
次に、バインド ネットワークによって変換された画像の特徴が、LLaMA のすべての層の単語トークンに追加され、アテンションフリーでゼロ初期化されたゲート メカニズムを介して視覚的な命令が徐々に注入されます。
ImageBind の共同埋め込みの助けを借りて、単純な画像とテキストのトレーニングにより、モデルは優れたマルチモダリティ命令追従機能を発揮できるようになります。
推論中、マルチモダリティ入力は対応する ImageBind エンコーダーに供給され、クロスモーダル埋め込みをさらに強化するために提案されたビジュアル キャッシュ モデルによって処理されます。
トレーニング不要のキャッシュ モデルは、ImageBind によって抽出された 300 万の画像特徴から取得するため、トレーニングと推論のモダリティの不一致が効果的に軽減されます。
特に、私たちのアプローチにより、ImageBind-LLM は多様なモダリティの命令に応答し、顕著な言語生成品質を実証できます。
コードは https://github.com/OpenGVLab/LLaMA-Adapter でリリースされています。

要約(オリジナル)

We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind’s image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.

arxiv情報

著者 Jiaming Han,Renrui Zhang,Wenqi Shao,Peng Gao,Peng Xu,Han Xiao,Kaipeng Zhang,Chris Liu,Song Wen,Ziyu Guo,Xudong Lu,Shuai Ren,Yafei Wen,Xiaoxin Chen,Xiangyu Yue,Hongsheng Li,Yu Qiao
発行日 2023-09-07 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク