要約
自動映画ナレーションは、視覚障害のある視聴者を支援するために、ビデオに合わせたプロットの説明を生成することを目的としています。
標準的なビデオキャプションとは異なり、重要なビジュアルの詳細を説明するだけでなく、映画の複数のショットにわたって展開されるプロットを推測することも含まれ、明確で複雑な課題が生じます。
この分野を前進させるために、映画ナレーション用に特別に設計されたデータ品質が強化された大規模なバイリンガル データセットである Movie101v2 を紹介します。
このタスクを再検討して、自動映画ナレーションの最終目標を 3 つの段階的な段階に分割し、対応する評価指標を備えた明確なロードマップを提供することを提案します。
新しいベンチマークに基づいて、GPT-4V を含むさまざまな大規模なビジョン言語モデルのベースラインを作成し、ナレーション生成における課題の詳細な分析を実施します。
私たちの調査結果は、適切な映画ナレーション生成を達成することは、重要な研究を必要とする魅力的な目標であることを強調しています。
要約(オリジナル)
Automatic movie narration aims to generate video-aligned plot descriptions to assist visually impaired audiences. Unlike standard video captioning, it involves not only describing key visual details but also inferring plots that unfold across multiple movie shots, presenting distinct and complex challenges. To advance this field, we introduce Movie101v2, a large-scale, bilingual dataset with enhanced data quality specifically designed for movie narration. Revisiting the task, we propose breaking down the ultimate goal of automatic movie narration into three progressive stages, offering a clear roadmap with corresponding evaluation metrics. Based on our new benchmark, we baseline a range of large vision-language models, including GPT-4V, and conduct an in-depth analysis of the challenges in narration generation. Our findings highlight that achieving applicable movie narration generation is a fascinating goal that requires significant research.
arxiv情報
著者 | Zihao Yue,Yepeng Zhang,Ziheng Wang,Qin Jin |
発行日 | 2024-10-18 16:44:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google