要約
最近のマルチモーダル大規模言語モデル(MLLM)の進歩により、ビデオ理解における研究が拡大し、主にビデオキャプションや質問応答などの高レベルのタスクに焦点が当てられている。一方、より小規模な研究では、高密度でピクセル精度のセグメンテーションタスクに取り組んでおり、通常、カテゴリガイドまたは参照ベースのオブジェクトセグメンテーションが含まれる。この2つの方向性は、人間レベルのビデオ理解モデルを開発するために不可欠であるが、ベンチマークやアーキテクチャが異なるため、ほとんど別々に発展してきた。本論文では、ViCaSを導入することで、これらの取り組みを統一することを目的とする。ViCaSは、何千もの困難なビデオを含む新しいデータセットであり、各ビデオは、詳細な、人間が書いたキャプションと、フレーズグラウンディングを持つ複数のオブジェクトのための、時間的に一貫性のある、ピクセル精度のマスクでアノテーションされている。本ベンチマークでは、全体的/高レベルの理解と、言語ガイドによるピクセル精度のセグメンテーションの両方についてモデルを評価する。また、慎重に検証された評価尺度を提示し、ベンチマークに取り組むことができる効果的なモデルアーキテクチャを提案する。プロジェクトページ: https://ali2500.github.io/vicas-project/
要約(オリジナル)
Recent advances in multimodal large language models (MLLMs) have expanded research in video understanding, primarily focusing on high-level tasks such as video captioning and question-answering. Meanwhile, a smaller body of work addresses dense, pixel-precise segmentation tasks, which typically involve category-guided or referral-based object segmentation. Although both directions are essential for developing models with human-level video comprehension, they have largely evolved separately, with distinct benchmarks and architectures. This paper aims to unify these efforts by introducing ViCaS, a new dataset containing thousands of challenging videos, each annotated with detailed, human-written captions and temporally consistent, pixel-accurate masks for multiple objects with phrase grounding. Our benchmark evaluates models on both holistic/high-level understanding and language-guided, pixel-precise segmentation. We also present carefully validated evaluation measures and propose an effective model architecture that can tackle our benchmark. Project page: https://ali2500.github.io/vicas-project/
arxiv情報
| 著者 | Ali Athar,Xueqing Deng,Liang-Chieh Chen |
| 発行日 | 2025-04-03 14:52:24+00:00 |
| arxivサイト | arxiv_id(pdf) |