要約
この論文では、ゼロショット学習におけるマルチモーダル言語モデル (MMLM) を進化させるための新しいアプローチである VisLingInstruct について説明します。
現在の MMLM は、マルチモーダル タスクにおいて優れたゼロショット能力を示しますが、そのパフォーマンスは命令の品質に大きく依存します。
VisLingInstruct は、コンテキスト学習を通じて指導テキストを自律的に評価および最適化することでこの問題に取り組み、MMLM における視覚認識と言語表現の間の相乗効果を向上させます。
この指導の進歩に加えて、MMLM の視覚特徴抽出モジュールも最適化し、テキスト コンテンツへの応答性をさらに強化しました。
FlanT5 と Vicuna に基づく MMLM に関する包括的な実験では、VisLingInstruct が視覚的なマルチモーダル タスクにおけるゼロショット パフォーマンスを大幅に向上させることが示されています。
特に、TextVQA および HatefulMemes データセットでは、以前の最先端技術と比べて 13.1% および 9% の精度向上が達成されています。
メインコードは https://github.com/Zhudongsheng75/VisLingInstruct で入手できます。
要約(オリジナル)
This paper presents VisLingInstruct, a novel approach to advancing Multi-Modal Language Models (MMLMs) in zero-shot learning. Current MMLMs show impressive zero-shot abilities in multi-modal tasks, but their performance depends heavily on the quality of instructions. VisLingInstruct tackles this by autonomously evaluating and optimizing instructional texts through In-Context Learning, improving the synergy between visual perception and linguistic expression in MMLMs. Alongside this instructional advancement, we have also optimized the visual feature extraction modules in MMLMs, further augmenting their responsiveness to textual content. Our comprehensive experiments on MMLMs, based on FlanT5 and Vicuna, show that VisLingInstruct significantly improves zero-shot performance in visual multi-modal tasks. Notably, it achieves a 13.1% and 9% increase in accuracy over the prior state-of-the-art on the TextVQA and HatefulMemes datasets. Our main code is available at https://github.com/Zhudongsheng75/VisLingInstruct.
arxiv情報
著者 | Dongsheng Zhu,Xunzhu Tang,Weidong Han,Jinghui Lu,Yukun Zhao,Guoliang Xing,Junfeng Wang,Dawei Yin |
発行日 | 2024-06-20 14:44:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google