CISum: Learning Cross-modality Interaction to Enhance Multimodal Semantic Coverage for Multimodal Summarization

要約

マルチモーダル要約 (MS) は、マルチモーダル入力から要約を生成することを目的としています。
以前の作品は主に、ビジュアル コンテンツを補足データと見なす ROUGE などのテキストのセマンティック カバレッジ メトリックに焦点を当てています。
したがって、要約は、さまざまなモダリティのセマンティクスをカバーするには効果的ではありません。
この論文では、マルチモーダル記事のクロスモダリティ相互作用を学習することにより、マルチモーダル セマンティック カバレッジを改善するためのマルチタスク クロスモダリティ学習フレームワーク (CISum) を提案します。
視覚的なセマンティクスを取得するために、テキスト コンテンツとの相関関係に基づいて画像を視覚的な説明に変換します。
次に、視覚的な説明とテキスト コンテンツが融合されてテキストの要約が生成され、マルチモーダル コンテンツのセマンティクスが取り込まれ、最も関連性の高い画像が視覚的な要約として選択されます。
さらに、自動マルチモーダル セマンティクス カバレッジ メトリックを設計して、パフォーマンスを評価します。
実験結果は、ROUGE と BLEU の優れたパフォーマンスを維持しながら、CISum がマルチモーダル セマンティクス カバレッジ メトリックでベースラインよりも優れていることを示しています。

要約(オリジナル)

Multimodal summarization (MS) aims to generate a summary from multimodal input. Previous works mainly focus on textual semantic coverage metrics such as ROUGE, which considers the visual content as supplemental data. Therefore, the summary is ineffective to cover the semantics of different modalities. This paper proposes a multi-task cross-modality learning framework (CISum) to improve multimodal semantic coverage by learning the cross-modality interaction in the multimodal article. To obtain the visual semantics, we translate images into visual descriptions based on the correlation with text content. Then, the visual description and text content are fused to generate the textual summary to capture the semantics of the multimodal content, and the most relevant image is selected as the visual summary. Furthermore, we design an automatic multimodal semantics coverage metric to evaluate the performance. Experimental results show that CISum outperforms baselines in multimodal semantics coverage metrics while maintaining the excellent performance of ROUGE and BLEU.

arxiv情報

著者 Litian Zhang,Xiaoming Zhang,Ziming Guo,Zhipeng Liu
発行日 2023-02-20 11:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク