要約
ビデオの大規模言語モデル (LLM) は急速に発展しているにもかかわらず、包括的な評価はまだ行われていません。
このペーパーでは、キャプション、質疑応答、検索、アクション認識などの複数のビデオ タスクを網羅する統合評価を紹介します。
従来の指標に加えて、複数の側面にわたって応答品質を評価する際に、GPT ベースの評価が人間のようなパフォーマンスにどのように匹敵するかを紹介します。
私たちは単純なベースラインである Video-LLaVA を提案します。これは単一の線形投影を使用し、既存のビデオ LLM よりも優れたパフォーマンスを発揮します。
最後に、学術的なデータセットを超えてビデオ LLM を評価します。これは、微調整用のわずか数百のビデオと命令のペアでシナリオを推進する際に、強力な認識能力と推論能力を示しています。
私たちの研究がビデオ LLM の統一評価として機能し、より実践的なシナリオの拡大に役立つことを願っています。
評価コードは近日公開予定です。
要約(オリジナル)
Despite the rapid development of video Large Language Models (LLMs), a comprehensive evaluation is still absent. In this paper, we introduce a unified evaluation that encompasses multiple video tasks, including captioning, question and answering, retrieval, and action recognition. In addition to conventional metrics, we showcase how GPT-based evaluation can match human-like performance in assessing response quality across multiple aspects. We propose a simple baseline: Video-LLaVA, which uses a single linear projection and outperforms existing video LLMs. Finally, we evaluate video LLMs beyond academic datasets, which show encouraging recognition and reasoning capabilities in driving scenarios with only hundreds of video-instruction pairs for fine-tuning. We hope our work can serve as a unified evaluation for video LLMs, and help expand more practical scenarios. The evaluation code will be available soon.
arxiv情報
著者 | Shuailin Li,Yuang Zhang,Yucheng Zhao,Qiuyue Wang,Fan Jia,Yingfei Liu,Tiancai Wang |
発行日 | 2023-11-20 16:02:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google