Towards Versatile and Efficient Visual Knowledge Injection into Pre-trained Language Models with Cross-Modal Adapters

要約

人間はマルチモーダルな知識を介して言語を学習する。しかし、テキストのみの事前学習方式のため、既存の事前学習済み言語モデル(PLM)のほとんどは、マルチモーダルな情報を妨げられています。 視覚的な知識をPLMに注入するために、既存の方法は視覚言語モデル(VLM)のテキストまたは画像エンコーダを組み込んで視覚情報を符号化し、知識融合のためにPLMのすべてのオリジナルパラメータを更新する。 本論文では、事前に訓練されたVLMで学習された整列された視覚とテキストの知識を柔軟に活用し、効率的にPLMに注入するための新しいプラグアンドプレイモジュール、X-adapterを提案します。 具体的には、X-adapterをPLMに挿入し、適応時に追加されたパラメータのみを更新する。 VLMの潜在能力を十分に引き出すために、X-adaptersはV-expertとT-expertという2つのサブモジュールで構成されており、それぞれVLMの画像表現とテキスト表現を融合させる。 下流のタスクに応じて、異なるサブモジュールを起動することを選択することができる。 実験の結果、本方法はPLMベースラインと比較して、物体色彩推論と自然言語理解(NLU)タスクの性能を大幅に向上させることができることが示された。

要約(オリジナル)

Humans learn language via multi-modal knowledge. However, due to the text-only pre-training scheme, most existing pre-trained language models (PLMs) are hindered from the multi-modal information. To inject visual knowledge into PLMs, existing methods incorporate either the text or image encoder of vision-language models (VLMs) to encode the visual information and update all the original parameters of PLMs for knowledge fusion. In this paper, we propose a new plug-and-play module, X-adapter, to flexibly leverage the aligned visual and textual knowledge learned in pre-trained VLMs and efficiently inject them into PLMs. Specifically, we insert X-adapters into PLMs, and only the added parameters are updated during adaptation. To fully exploit the potential in VLMs, X-adapters consist of two sub-modules, V-expert and T-expert, to fuse VLMs’ image and text representations, respectively. We can opt for activating different sub-modules depending on the downstream tasks. Experimental results show that our method can significantly improve the performance on object-color reasoning and natural language understanding (NLU) tasks compared with PLM baselines.

arxiv情報

著者 Xinyun Zhang,Haochen Tan,Han Wu,Mingjie Zhan,Ding Liang,Bei Yu
発行日 2023-05-12 10:08:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク