Chain-of-Thought Prompt Distillation for Multimodal Named Entity Recognition and Multimodal Relation Extraction

要約

マルチモーダル固有表現認識 (MNER) とマルチモーダル関係抽出 (MRE) には、複雑な言語的およびマルチモーダルな理解を行うための基本的な推論能力が必要です。
この研究では、一連の中間推論ステップである \textit{思考連鎖} (CoT) を生成することにより、大規模言語モデル (LLM) の推論能力をよりコンパクトな学生モデルに抽出することを検討します。
具体的には、マルチグレイン (名詞、文、マルチモダリティ) およびデータ拡張 (スタイル、エンティティ、画像) の次元をカバーする CoT プロンプトを通じて、LLM からそのような推論能力を引き出す例を示すことから始めます。
続いて、LLM の常識的推論能力を同化するための新しい条件付きプロンプト蒸留方法を提案します。これにより、画像や CoT の知識を追加する必要がなく、テキストのみの入力に対処する際のスチューデント モデルの有用性が向上します。
広範な実験により、私たちのアプローチが最先端の精度を達成し、MNERおよびMREデータセットの解釈可能性、データ効率、およびクロスドメイン一般化に関して多くの利点を明らかにすることが明らかになりました。

要約(オリジナル)

Multimodal Named Entity Recognition (MNER) and Multimodal Relation Extraction (MRE) necessitate the fundamental reasoning capacity for intricate linguistic and multimodal comprehension. In this study, we explore distilling the reasoning ability of large language models (LLMs) into a more compact student model by generating a \textit{chain of thought} (CoT) — a sequence of intermediate reasoning steps. Specifically, we commence by exemplifying the elicitation of such reasoning ability from LLMs through CoT prompts covering multi-grain (noun, sentence, multimodality) and data-augmentation (style, entity, image) dimensions. Subsequently, we present a novel conditional prompt distillation method to assimilate the commonsense reasoning ability from LLMs, thereby enhancing the utility of the student model in addressing text-only inputs without the requisite addition of image and CoT knowledge. Extensive experiments reveal that our approach attains state-of-the-art accuracy and manifests a plethora of advantages concerning interpretability, data efficiency, and cross-domain generalization on MNER and MRE datasets.

arxiv情報

著者 Feng Chen,Yujian Feng
発行日 2023-08-23 05:04:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク