ExAct: A Video-Language Benchmark for Expert Action Analysis

要約

熟練した身体的人間の活動を専門レベルの理解のための新しいビデオ言語ベンチマークを正確に提示します。
当社の新しいベンチマークには、6つのドメインで11の身体活動にまたがる352​​1の専門家でキュリットされたビデオ質問回答ペアが含まれています:スポーツ、自転車の修理、料理、健康、音楽、ダンス。
正確には、5つの慎重に設計された候補オプションから正しい答えを選択する必要があるため、物理的な人間のスキルについての微妙で細粒の専門家レベルの理解が必要です。
最近の最先端のVLMを正確に評価することは、人間の専門家のパフォーマンスに比べて実質的なパフォーマンスギャップを明らかにします。
具体的には、最高のパフォーマンスのGPT-4Oモデルは、訓練された人間の専門家/専門家が達成した82.02%をはるかに下回る44.70%の精度のみを達成しています。
私たちは、さまざまな物理的および手続き型ドメインにおける人間のスキルを正確に理解できるVLMの開発と評価に有益であると考えています。
データセットとコードはhttps://texaser.github.io/exact_project_page/で入手できます。

要約(オリジナル)

We present ExAct, a new video-language benchmark for expert-level understanding of skilled physical human activities. Our new benchmark contains 3521 expert-curated video question-answer pairs spanning 11 physical activities in 6 domains: Sports, Bike Repair, Cooking, Health, Music, and Dance. ExAct requires the correct answer to be selected from five carefully designed candidate options, thus necessitating a nuanced, fine-grained, expert-level understanding of physical human skills. Evaluating the recent state-of-the-art VLMs on ExAct reveals a substantial performance gap relative to human expert performance. Specifically, the best-performing GPT-4o model achieves only 44.70% accuracy, well below the 82.02% attained by trained human specialists/experts. We believe that ExAct will be beneficial for developing and evaluating VLMs capable of precise understanding of human skills in various physical and procedural domains. Dataset and code are available at https://texaser.github.io/exact_project_page/

arxiv情報

著者 Han Yi,Yulu Pan,Feihong He,Xinyu Liu,Benjamin Zhang,Oluwatumininu Oguntola,Gedas Bertasius
発行日 2025-06-06 17:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク