Align and Attend: Multimodal Summarization with Dual Contrastive Losses

要約

タイトル: デュアルコントラスティブ損失を用いた多次元サマリゼーションのためのアラインメントとアテンション

要約:
-多次元サマリゼーションは、異なる情報源(モダリティ)から最も重要な情報を抽出して要約を形成することを目的とする。
-多次元サマリゼーションは単一のモダリティによるサマリゼーションとは異なり、クロスモーダル情報を明示的に利用して、より信頼性の高い高品質の要約を生成することができる。
-現在の方法は、異なるモダリティ間の時間的な対応関係を利用せず、異なるサンプル間の固有の相関関係を無視し、問題を解決できていない。
-この問題を解決するために、Align and Attend Multimodal Summarization(A2Summ)を提案する。A2Summは、複数の入力にアラインメントとアテンションを効果的に行うことができる統合的な多次元トランスフォーマーベースのモデルです。
-さらに、相関関係をモデル化するために、二つの新しいコントラスティブ損失を提案する。これにより、複数のサンプル間および単一のサンプル内の相関関係をモデル化できる。
– TVSumおよびSumMeの2つの標準的なビデオサマリゼーションデータセットと、Daily MailおよびCNNの2つの多次元サマリゼーションデータセットでの詳細な実験は、A2Summが他のモデルよりも優れたパフォーマンスを発揮することを示している。
-さらに、ライブストリームビデオとトランスクリプトされたテキストに注釈が付いた大規模な多次元サマリゼーションデータセットBLiSSを収集した。コードとデータセットは公開されている。

要約(オリジナル)

The goal of multimodal summarization is to extract the most important information from different modalities to form summaries. Unlike unimodal summarization, the multimodal summarization task explicitly leverages cross-modal information to help generate more reliable and high-quality summaries. However, existing methods fail to leverage the temporal correspondence between different modalities and ignore the intrinsic correlation between different samples. To address this issue, we introduce Align and Attend Multimodal Summarization (A2Summ), a unified multimodal transformer-based model which can effectively align and attend the multimodal input. In addition, we propose two novel contrastive losses to model both inter-sample and intra-sample correlations. Extensive experiments on two standard video summarization datasets (TVSum and SumMe) and two multimodal summarization datasets (Daily Mail and CNN) demonstrate the superiority of A2Summ, achieving state-of-the-art performances on all datasets. Moreover, we collected a large-scale multimodal summarization dataset BLiSS, which contains livestream videos and transcribed texts with annotated summaries. Our code and dataset are publicly available at ~\url{https://boheumd.github.io/A2Summ/}.

arxiv情報

著者 Bo He,Jun Wang,Jielin Qiu,Trung Bui,Abhinav Shrivastava,Zhaowen Wang
発行日 2023-04-25 01:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク