要約
マルチメディア データの急速な増加により、テキストと関連画像の両方を統合したマルチモーダル要約を生成することを目的とした、マルチモーダル出力によるマルチモーダル要約 (MSMO) の進歩が加速しています。
マルチモーダルな入出力内のコンテンツの固有の異種性は、MSMO の実行に重大な課題をもたらします。
従来のアプローチは通常、粗い画像テキスト データまたは個々の視覚オブジェクトに対して全体的な視点を採用し、オブジェクトとそれらが表すエンティティの間の本質的なつながりを見落としています。
きめ細かいエンティティの知識を統合するために、エンティティガイド付きマルチモーダル要約モデル (EGMS) を提案します。
BART に基づいて構築された私たちのモデルは、重みを共有したデュアル マルチモーダル エンコーダーを利用して、テキスト画像情報とエンティティ画像情報を同時に処理します。
次に、ゲーティング メカニズムが視覚データを組み合わせて強化されたテキスト要約生成を行うと同時に、事前にトレーニングされた視覚言語モデルからの知識の蒸留を通じて画像の選択が洗練されます。
公開 MSMO データセットに関する広範な実験により、EGMS 手法の優位性が検証され、エンティティ情報を MSMO 問題に組み込む必要性も証明されました。
要約(オリジナル)
The rapid increase in multimedia data has spurred advancements in Multimodal Summarization with Multimodal Output (MSMO), which aims to produce a multimodal summary that integrates both text and relevant images. The inherent heterogeneity of content within multimodal inputs and outputs presents a significant challenge to the execution of MSMO. Traditional approaches typically adopt a holistic perspective on coarse image-text data or individual visual objects, overlooking the essential connections between objects and the entities they represent. To integrate the fine-grained entity knowledge, we propose an Entity-Guided Multimodal Summarization model (EGMS). Our model, building on BART, utilizes dual multimodal encoders with shared weights to process text-image and entity-image information concurrently. A gating mechanism then combines visual data for enhanced textual summary generation, while image selection is refined through knowledge distillation from a pre-trained vision-language model. Extensive experiments on public MSMO dataset validate the superiority of the EGMS method, which also prove the necessity to incorporate entity information into MSMO problem.
arxiv情報
著者 | Yanghai Zhang,Ye Liu,Shiwei Wu,Kai Zhang,Xukai Liu,Qi Liu,Enhong Chen |
発行日 | 2024-08-06 12:45:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google