VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

要約

ビデオ大規模言語モデル (ビデオ LLM) は、最近、一般的なビデオの理解において顕著な能力を発揮しています。
ただし、彼らは主に全体的な理解に焦点を当てており、きめの細かい空間的および時間的な詳細を捉えることに苦労しています。
さらに、高品質のオブジェクトレベルのビデオ命令データと包括的なベンチマークの欠如が、その進歩をさらに妨げています。
これらの課題に取り組むために、VideoRefer Suite を導入して、Video LLM を強化して、より詳細なレベルの時空間ビデオの理解を可能にします。つまり、ビデオ全体のあらゆるオブジェクトの認識と推論を可能にします。
特に、データセット、モデル、ベンチマークという 3 つの重要な側面にわたって VideoRefer Suite を徹底的に開発しました。
まず、マルチエージェント データ エンジンを導入して、VideoRefer-700K と呼ばれる大規模で高品質のオブジェクト レベルのビデオ命令データセットを注意深く管理します。
次に、正確な領域表現と連続表現をキャプチャするための多用途の時空間オブジェクト エンコーダーを備えた VideoRefer モデルを紹介します。
最後に、VideoRefer-Bench を細心の注意を払って作成し、Video LLM の時空間理解能力を包括的に評価し、さまざまな側面にわたって評価します。
広範な実験と分析により、当社の VideoRefer モデルはビデオ参照ベンチマークで有望なパフォーマンスを達成するだけでなく、一般的なビデオ理解機能も促進することが実証されました。

要約(オリジナル)

Video Large Language Models (Video LLMs) have recently exhibited remarkable capabilities in general video understanding. However, they mainly focus on holistic comprehension and struggle with capturing fine-grained spatial and temporal details. Besides, the lack of high-quality object-level video instruction data and a comprehensive benchmark further hinders their advancements. To tackle these challenges, we introduce the VideoRefer Suite to empower Video LLM for finer-level spatial-temporal video understanding, i.e., enabling perception and reasoning on any objects throughout the video. Specially, we thoroughly develop VideoRefer Suite across three essential aspects: dataset, model, and benchmark. Firstly, we introduce a multi-agent data engine to meticulously curate a large-scale, high-quality object-level video instruction dataset, termed VideoRefer-700K. Next, we present the VideoRefer model, which equips a versatile spatial-temporal object encoder to capture precise regional and sequential representations. Finally, we meticulously create a VideoRefer-Bench to comprehensively assess the spatial-temporal understanding capability of a Video LLM, evaluating it across various aspects. Extensive experiments and analyses demonstrate that our VideoRefer model not only achieves promising performance on video referring benchmarks but also facilitates general video understanding capabilities.

arxiv情報

著者 Yuqian Yuan,Hang Zhang,Wentong Li,Zesen Cheng,Boqiang Zhang,Long Li,Xin Li,Deli Zhao,Wenqiao Zhang,Yueting Zhuang,Jianke Zhu,Lidong Bing
発行日 2025-01-08 14:38:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク