A Modular Approach for Multimodal Summarization of TV Shows

要約

この論文では、複雑な推論、複数のモダリティ、長い物語など、AI 研究の重要な領域に関わるテレビ番組を要約するタスクに取り組みます。
私たちは、個別のコンポーネントが特殊なサブタスクを実行するモジュール式のアプローチを提案します。これにより、エンドツーエンドの方法と比較してより大きな柔軟性が得られると主張します。
私たちのモジュールには、シーンの境界の検出、さまざまなイベント間のカット数を最小限に抑えるためのシーンの並べ替え、視覚情報のテキストへの変換、各シーンの会話の要約、エピソード全体の最終的な要約へのシーンの要約の融合などが含まれます。
また、生成された要約の精度と再現率の両方を測定するための新しい指標である PRISMA (要約 FActs の精度と再現率の評価) を提示し、それを原子的な事実に分解します。
最近リリースされた SummScreen3D データセットでテストされたこの手法は、ROUGE と新しい事実ベースの指標で測定され、人間の評価者によって評価されたように、比較モデルよりも高品質の概要を生成します。

要約(オリジナル)

In this paper we address the task of summarizing television shows, which touches key areas in AI research: complex reasoning, multiple modalities, and long narratives. We present a modular approach where separate components perform specialized sub-tasks which we argue affords greater flexibility compared to end-to-end methods. Our modules involve detecting scene boundaries, reordering scenes so as to minimize the number of cuts between different events, converting visual information to text, summarizing the dialogue in each scene, and fusing the scene summaries into a final summary for the entire episode. We also present a new metric, PRISMA (Precision and Recall EvaluatIon of Summary FActs), to measure both precision and recall of generated summaries, which we decompose into atomic facts. Tested on the recently released SummScreen3D dataset, our method produces higher quality summaries than comparison models, as measured with ROUGE and our new fact-based metric, and as assessed by human evaluators.

arxiv情報

著者 Louis Mahon,Mirella Lapata
発行日 2024-08-06 14:47:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク