MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX

要約

フロンティアモデルは言語のみであるか、主にビジョンと言語のモダリティに焦点を当てています。
ビジョンとオーディオ理解機能を備えたモデルの最近の進歩は大きな進歩を示していますが、この分野には、クロスモダリティの知覚パフォーマンスを徹底的に評価するための標準化された評価フレームワークがありません。
Maverix〜(マルチモーダルオーディオ視聴覚評価推論インデックス)を紹介します。これは、ビデオとオーディオ情報の密接な統合を必要とするタスクを介してマルチモーダルモデルを評価するために明示的に設計された700のビデオと2,556の質問を明示的に設計した2,556の質問です。
Maverixは、モデルに視聴覚タスクをモデルに提供し、推論および意思決定プロセス中に人間が利用できるマルチモーダルな知覚体験を密接に模倣しています。
私たちの知る限り、Maverixは、包括的な視聴覚統合の評価を明示的に目的とした最初のベンチマークです。
Gemini 1.5 ProやO1を含む最先端のモデルを使用した実験では、人間のレベルに近づいているパフォーマンス(約70%の精度)を示し、人間の専門家はほぼ天井のパフォーマンス(95.1%)に達します。
標準化された評価プロトコル、厳密に注釈付きパイプライン、およびパブリックツールキットにより、Maverixは、視聴覚マルチモーダルインテリジェンスを進めるための挑戦的なテストベッドを確立します。

要約(オリジナル)

Frontier models have either been language-only or have primarily focused on vision and language modalities. Although recent advancements in models with vision and audio understanding capabilities have shown substantial progress, the field lacks a standardized evaluation framework for thoroughly assessing their cross-modality perception performance. We introduce MAVERIX~(Multimodal Audio-Visual Evaluation Reasoning IndeX), a novel benchmark with 700 videos and 2,556 questions explicitly designed to evaluate multimodal models through tasks that necessitate close integration of video and audio information. MAVERIX uniquely provides models with audiovisual tasks, closely mimicking the multimodal perceptual experiences available to humans during inference and decision-making processes. To our knowledge, MAVERIX is the first benchmark aimed explicitly at assessing comprehensive audiovisual integration. Experiments with state-of-the-art models, including Gemini 1.5 Pro and o1, show performance approaching human levels (around 70% accuracy), while human experts reach near-ceiling performance (95.1%). With standardized evaluation protocols, a rigorously annotated pipeline, and a public toolkit, MAVERIX establishes a challenging testbed for advancing audiovisual multimodal intelligence.

arxiv情報

著者 Liuyue Xie,George Z. Wei,Avik Kuthiala,Ce Zheng,Ananya Bal,Mosam Dabhi,Liting Wen,Taru Rustagi,Ethan Lai,Sushil Khyalia,Rohan Choudhury,Morteza Ziyadi,Xu Zhang,Hao Yang,László A. Jeni
発行日 2025-03-27 17:04:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SD パーマリンク