Outside Knowledge Conversational Video (OKCV) Dataset — Dialoguing over Videos

要約

外部の知識視覚的質問(OK-VQA)では、モデルは画像内に関連する視覚情報を特定し、外部の知識を組み込んで質問に正確に応答する必要があります。
このタスクを動画に基づいて視覚的に接地されたダイアログ設定に拡張すると、会話モデルは時間の経過とともに適切な視覚的詳細を認識し、必要な情報が必ずしも視覚情報に存在するわけではない質問に答える必要があります。
さらに、会話全体のコンテキストは、その後の対話のために考慮されなければなりません。
このタスクを探索するために、40,954ドルのインターリーブ対話ターンで構成される5,986ドルの人間が解釈した対話を含む2,017ドルのビデオで構成されるデータセットを紹介します。
対話のコンテキストは特定のビデオセグメントに視覚的に接地されていますが、質問には視覚的に存在しない外部の知識がさらに必要です。
したがって、モデルは、関連するビデオパーツを特定するだけでなく、外部の知識を活用して対話内で会話する必要があります。
さらに、データセットで評価されたいくつかのベースラインを提供し、このタスクに関連する将来の課題を示します。
データセットは、https://github.com/c-patsch/okcvで公開されています。

要約(オリジナル)

In outside knowledge visual question answering (OK-VQA), the model must identify relevant visual information within an image and incorporate external knowledge to accurately respond to a question. Extending this task to a visually grounded dialogue setting based on videos, a conversational model must both recognize pertinent visual details over time and answer questions where the required information is not necessarily present in the visual information. Moreover, the context of the overall conversation must be considered for the subsequent dialogue. To explore this task, we introduce a dataset comprised of $2,017$ videos with $5,986$ human-annotated dialogues consisting of $40,954$ interleaved dialogue turns. While the dialogue context is visually grounded in specific video segments, the questions further require external knowledge that is not visually present. Thus, the model not only has to identify relevant video parts but also leverage external knowledge to converse within the dialogue. We further provide several baselines evaluated on our dataset and show future challenges associated with this task. The dataset is made publicly available here: https://github.com/c-patsch/OKCV.

arxiv情報

著者 Benjamin Reichman,Constantin Patsch,Jack Truxal,Atishay Jain,Larry Heck
発行日 2025-06-11 17:23:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク