要約
マルチモーダル出力 (MSMO) を使用したマルチメディア要約は、言語の基礎付けにおいて最近調査されたアプリケーションです。
ニュース記事の表紙画像やタイトルを自動的に生成したり、オンライン ビデオを紹介したりするなど、実際のアプリケーションで重要な役割を果たします。
ただし、既存の方法では、ビデオと記事全体から特徴を抽出し、融合方法を使用して代表的なものを選択するため、通常、重要な構造とさまざまなセマンティクスが無視されます。
この作業では、視覚的およびテキストのセグメンテーションによる最適なトランスポートの配置に基づいて、セマンティクス一貫性のあるクロスドメイン要約 (SCCS) モデルを提案します。
具体的には、私たちの方法は、最初にビデオと記事の両方をセグメントに分解して、それぞれ構造的セマンティクスをキャプチャします。
次に、SCCS は、マルチモーダル インタラクションを活用してビジュアルとテキストの要約を一致させ、選択する、最適なトランスポート距離を持つクロスドメイン アラインメント目標に従います。
最近の 3 つのマルチモーダル データセットで手法を評価し、高品質のマルチモーダル サマリーを生成する手法の有効性を実証しました。
要約(オリジナル)
Multimedia summarization with multimodal output (MSMO) is a recently explored application in language grounding. It plays an essential role in real-world applications, i.e., automatically generating cover images and titles for news articles or providing introductions to online videos. However, existing methods extract features from the whole video and article and use fusion methods to select the representative one, thus usually ignoring the critical structure and varying semantics. In this work, we propose a Semantics-Consistent Cross-domain Summarization (SCCS) model based on optimal transport alignment with visual and textual segmentation. In specific, our method first decomposes both video and article into segments in order to capture the structural semantics, respectively. Then SCCS follows a cross-domain alignment objective with optimal transport distance, which leverages multimodal interaction to match and select the visual and textual summary. We evaluated our method on three recent multimodal datasets and demonstrated the effectiveness of our method in producing high-quality multimodal summaries.
arxiv情報
著者 | Jielin Qiu,Jiacheng Zhu,Mengdi Xu,Franck Dernoncourt,Trung Bui,Zhaowen Wang,Bo Li,Ding Zhao,Hailin Jin |
発行日 | 2022-10-10 14:27:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google