要約
記録されたビデオを簡潔で正確なテキストの概要に変換することは、マルチモーダル学習における成長する課題です。
このペーパーでは、科学的領域でのビデオからテキストへの要約のために特別に設計されたデータセットであるVistaを紹介します。
Vistaには、記録された18,599のAIカンファレンスプレゼンテーションと対応する紙の要約が含まれています。
最先端の大規模モデルのパフォーマンスをベンチマークし、計画ベースのフレームワークを適用して、要約の構造化された性質をより適切にキャプチャします。
人間と自動化された評価の両方が、明示的な計画が要約の品質と事実上の一貫性を高めることを確認しています。
ただし、モデルと人間のパフォーマンスの間にはかなりのギャップが残っており、科学的なビデオ要約の課題を強調しています。
要約(オリジナル)
Transforming recorded videos into concise and accurate textual summaries is a growing challenge in multimodal learning. This paper introduces VISTA, a dataset specifically designed for video-to-text summarization in scientific domains. VISTA contains 18,599 recorded AI conference presentations paired with their corresponding paper abstracts. We benchmark the performance of state-of-the-art large models and apply a plan-based framework to better capture the structured nature of abstracts. Both human and automated evaluations confirm that explicit planning enhances summary quality and factual consistency. However, a considerable gap remains between models and human performance, highlighting the challenges of scientific video summarization.
arxiv情報
著者 | Dongqi Liu,Chenxi Whitehouse,Xi Yu,Louis Mahon,Rohit Saxena,Zheng Zhao,Yifu Qiu,Mirella Lapata,Vera Demberg |
発行日 | 2025-02-26 13:57:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google