要約
既存の大規模ビジョン言語モデル (LVLM) は、数秒程度の短いビデオの処理に主に限定されており、数分以上にわたる長時間ビデオの一貫した説明を生成するのに苦労しています。
ビデオの説明が長いと、説明間のプロットレベルの一貫性など、新たな課題が生じます。
これらに対処するために、主要な要素として、キャラクター名を各ダイアログに一致させる、オーディオビジュアルキャラクターの識別を考え出します。
我々は、低レベルの視覚概念と高レベルのプロット情報の両方を組み込んだ、長いビデオの緻密な説明を生成するシステムである StoryTeller を提案します。
StoryTeller は、ビジュアル、オーディオ、テキスト モダリティを統合するマルチモーダル大規模言語モデルを使用して、1 分間のビデオ クリップのオーディオビジュアル キャラクター識別を実行します。
次に、結果は LVLM に供給され、ビデオ記述の一貫性が強化されます。
映画の説明タスクに対するアプローチを検証し、3 分間の映画クリップの緻密な説明を含むデータセットである MovieStory101 を紹介します。
長いビデオの説明を評価するために、MovieStory101 テスト セット用の大規模な多肢選択式質問セットである MovieQA を作成します。
これらの質問に答えるために説明を GPT-4 に入力し、自動評価指標として正確さを使用して説明を評価します。
実験の結果、StoryTeller は MovieQA 上のすべてのオープンソースおよびクローズドソースのベースラインを上回り、最も強力なベースラインである Gemini-1.5-pro よりも 9.5% 高い精度を達成し、人間による並列評価で +15.56% の優位性を実証したことが示されています。
さらに、StoryTeller からのオーディオビジュアル キャラクター識別を組み込むことで、すべてのビデオ記述モデルのパフォーマンスが向上し、Gemini-1.5-pro と GPT-4o では、MovieQA の精度がそれぞれ 5.5% と 13.0% の相対的な向上を示しました。
要約(オリジナル)
Existing large vision-language models (LVLMs) are largely limited to processing short, seconds-long videos and struggle with generating coherent descriptions for extended video spanning minutes or more. Long video description introduces new challenges, such as plot-level consistency across descriptions. To address these, we figure out audio-visual character identification, matching character names to each dialogue, as a key factor. We propose StoryTeller, a system for generating dense descriptions of long videos, incorporating both low-level visual concepts and high-level plot information. StoryTeller uses a multimodal large language model that integrates visual, audio, and text modalities to perform audio-visual character identification on minute-long video clips. The results are then fed into a LVLM to enhance consistency of video description. We validate our approach on movie description tasks and introduce MovieStory101, a dataset with dense descriptions for three-minute movie clips. To evaluate long video descriptions, we create MovieQA, a large set of multiple-choice questions for the MovieStory101 test set. We assess descriptions by inputting them into GPT-4 to answer these questions, using accuracy as an automatic evaluation metric. Experiments show that StoryTeller outperforms all open and closed-source baselines on MovieQA, achieving 9.5% higher accuracy than the strongest baseline, Gemini-1.5-pro, and demonstrating a +15.56% advantage in human side-by-side evaluations. Additionally, incorporating audio-visual character identification from StoryTeller improves the performance of all video description models, with Gemini-1.5-pro and GPT-4o showing relative improvement of 5.5% and 13.0%, respectively, in accuracy on MovieQA.
arxiv情報
著者 | Yichen He,Yuan Lin,Jianchao Wu,Hanchong Zhang,Yuchen Zhang,Ruicheng Le |
発行日 | 2024-11-11 15:51:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google