SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization

要約

Extreme Multimodal Summarization with Multimodal Output (XMSMO) は、さまざまなタイプの情報を統合して、個々のモダリティについて非常に簡潔で有益な要約を作成することにより、魅力的な要約アプローチになります。
既存の手法では、マルチモーダル データにはトピックに無関係な情報が含まれることが多く、モデルが誤解を招き、特に非常に短い要約については不正確な要約が生成される可能性があるという問題が見落とされています。
この論文では、極端なマルチモーダル要約のための共有情報ガイド型トランスフォーマーである SITransformer を提案します。
これには、クロスモーダル共有情報抽出プログラムとクロスモーダル対話モジュールを含む共有情報ガイド型パイプラインがあります。
エクストラクタは、微分可能なtop-kセレクタと共有情報ガイド型ゲートユニットから構成される新しいフィルタリングプロセスを考案することにより、さまざまなモダリティからの意味的に共有された顕著な情報を定式化します。
その結果、モダリティ全体に共通する、顕著な、関連性のあるコンテンツが特定されます。
次に、クロスモーダルな注意を備えたトランスフォーマーが、共有情報ガイダンスを使用してモダリティ内およびモダリティ間の学習のために開発され、極端な要約を生成します。
包括的な実験により、SITransformer が XMSMO のビデオとテキストの両方の要約の要約品質を大幅に向上させることが実証されました。
私たちのコードは https://github.com/SichengLeoLiu/MMAsia24-XMSMO で公開されます。

要約(オリジナル)

Extreme Multimodal Summarization with Multimodal Output (XMSMO) becomes an attractive summarization approach by integrating various types of information to create extremely concise yet informative summaries for individual modalities. Existing methods overlook the issue that multimodal data often contains more topic irrelevant information, which can mislead the model into producing inaccurate summaries especially for extremely short ones. In this paper, we propose SITransformer, a Shared Information-guided Transformer for extreme multimodal summarization. It has a shared information guided pipeline which involves a cross-modal shared information extractor and a cross-modal interaction module. The extractor formulates semantically shared salient information from different modalities by devising a novel filtering process consisting of a differentiable top-k selector and a shared-information guided gating unit. As a result, the common, salient, and relevant contents across modalities are identified. Next, a transformer with cross-modal attentions is developed for intra- and inter-modality learning with the shared information guidance to produce the extreme summary. Comprehensive experiments demonstrate that SITransformer significantly enhances the summarization quality for both video and text summaries for XMSMO. Our code will be publicly available at https://github.com/SichengLeoLiu/MMAsia24-XMSMO.

arxiv情報

著者 Sicheng Liu,Lintao Wang,Xiaogan Zhu,Xuequan Lu,Zhiyong Wang,Kun Hu
発行日 2024-08-29 02:16:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 パーマリンク