要約
最近、ビデオベースの大規模言語モデル (Video-LLM) が導入され、認識と理解の根本的な改善と、多様なユーザーの問い合わせの両方をターゲットとしています。
汎用人工知能を実現するという最終目標を追求するには、真にインテリジェントな Video-LLM モデルは、周囲を見て理解するだけでなく、人間レベルの常識を備え、ユーザーのために十分な情報に基づいた意思決定を行う必要があります。
このようなモデルの開発を導くためには、堅牢で包括的な評価システムの確立が重要になります。
この目的を達成するために、このペーパーでは、Video-LLM を評価するために特別に設計されたツールキットとともに、新しい包括的なベンチマークである \textit{Video-Bench} を提案します。
このベンチマークは、細心の注意を払って作成された 10 個のタスクで構成され、ビデオ専用の理解、事前知識に基づく質問回答、理解と意思決定の 3 つの異なるレベルにわたってビデオ LLM の機能を評価します。
さらに、さまざまなタスクのモデル出力を処理するように調整された自動ツールキットを導入し、メトリクスの計算を容易にし、便利な最終スコアを生成します。
\textit{Video-Bench} を使用して 8 つの代表的な Video-LLM を評価します。
この調査結果は、現在のビデオ LLM が現実世界のビデオを人間のように理解して分析するのにはまだかなり及ばないことを明らかにしており、将来の研究の方向性にとって貴重な洞察を提供します。
ベンチマークとツールキットは、\url{https://github.com/PKU-YuanGroup/Video-Bench} から入手できます。
要約(オリジナル)
Video-based large language models (Video-LLMs) have been recently introduced, targeting both fundamental improvements in perception and comprehension, and a diverse range of user inquiries. In pursuit of the ultimate goal of achieving artificial general intelligence, a truly intelligent Video-LLM model should not only see and understand the surroundings, but also possess human-level commonsense, and make well-informed decisions for the users. To guide the development of such a model, the establishment of a robust and comprehensive evaluation system becomes crucial. To this end, this paper proposes \textit{Video-Bench}, a new comprehensive benchmark along with a toolkit specifically designed for evaluating Video-LLMs. The benchmark comprises 10 meticulously crafted tasks, evaluating the capabilities of Video-LLMs across three distinct levels: Video-exclusive Understanding, Prior Knowledge-based Question-Answering, and Comprehension and Decision-making. In addition, we introduce an automatic toolkit tailored to process model outputs for various tasks, facilitating the calculation of metrics and generating convenient final scores. We evaluate 8 representative Video-LLMs using \textit{Video-Bench}. The findings reveal that current Video-LLMs still fall considerably short of achieving human-like comprehension and analysis of real-world videos, offering valuable insights for future research directions. The benchmark and toolkit are available at: \url{https://github.com/PKU-YuanGroup/Video-Bench}.
arxiv情報
著者 | Munan Ning,Bin Zhu,Yujia Xie,Bin Lin,Jiaxi Cui,Lu Yuan,Dongdong Chen,Li Yuan |
発行日 | 2023-11-27 18:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google