A Video-grounded Dialogue Dataset and Metric for Event-driven Activities

要約

このペーパーでは、タスク用に特別に設計されたセッションベースのコンテキスト評価メトリックであるVDEVALとともに、イベント主導のアクティビティに関するビデオに基づいた対話のデータセットであるVDACTを紹介します。
既存のデータセットとは異なり、VDACTには、正確な応答生成のために高度なコンテキスト理解を必要とするさまざまなイベント駆動型アクティビティを描写するより長く、より複雑なビデオシーケンスが含まれます。
データセットは、多様なアクティビティシナリオを備えた1,000のビデオから派生した30,000を超える質疑応答ペアを持つ3,000のダイアログで構成されています。
VDACTは、その幅広いアクティビティシナリオと幅広い質問タイプのために、特に挑戦的な特性を表示します。
最先端のVision Foundationモデルに関する実証研究は、データセットの特定の質問タイプに対処する際の制限を強調しています。
さらに、個々の応答を評価するために補足的な知識グラフから抽出された対話セッションの履歴とビデオコンテンツの要約を統合するVDEVALは、単一の対話ターンのコンテキストのみに依存する既存の評価メトリックよりも、VDACTデータセットの人間の評価との相関が著しく高いことを示しています。

要約(オリジナル)

This paper presents VDAct, a dataset for a Video-grounded Dialogue on Event-driven Activities, alongside VDEval, a session-based context evaluation metric specially designed for the task. Unlike existing datasets, VDAct includes longer and more complex video sequences that depict a variety of event-driven activities that require advanced contextual understanding for accurate response generation. The dataset comprises 3,000 dialogues with over 30,000 question-and-answer pairs, derived from 1,000 videos with diverse activity scenarios. VDAct displays a notably challenging characteristic due to its broad spectrum of activity scenarios and wide range of question types. Empirical studies on state-of-the-art vision foundation models highlight their limitations in addressing certain question types on our dataset. Furthermore, VDEval, which integrates dialogue session history and video content summaries extracted from our supplementary Knowledge Graphs to evaluate individual responses, demonstrates a significantly higher correlation with human assessments on the VDAct dataset than existing evaluation metrics that rely solely on the context of single dialogue turns.

arxiv情報

著者 Wiradee Imrattanatrai,Masaki Asada,Kimihiro Hasegawa,Zhi-Qi Cheng,Ken Fukuda,Teruko Mitamura
発行日 2025-01-30 13:11:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク