Perception Test 2023: A Summary of the First Challenge And Outcome

要約

最初の知覚テスト チャレンジは、最近提案された知覚テスト ベンチマークで最先端のビデオ モデルをベンチマークすることを目的として、IEEE/CVF コンピューター ビジョンに関する国際会議 (ICCV) 2023 に合わせて半日ワークショップとして開催されました。
このチャレンジには、ビデオ、オーディオ、テキスト モダリティにわたる言語と非言語インターフェイスの両方を使用した低レベルおよび高レベルのタスクをカバーする 6 つのトラックがあり、オブジェクト トラッキング、ポイント トラッキング、時間的アクションの位置特定、時間的音声の位置特定をカバーしています。
、多肢選択式のビデオ質問応答、および根拠のあるビデオ質問応答。
このレポートには、タスクの説明、指標、ベースライン、結果がまとめられています。

要約(オリジナル)

The First Perception Test challenge was held as a half-day workshop alongside the IEEE/CVF International Conference on Computer Vision (ICCV) 2023, with the goal of benchmarking state-of-the-art video models on the recently proposed Perception Test benchmark. The challenge had six tracks covering low-level and high-level tasks, with both a language and non-language interface, across video, audio, and text modalities, and covering: object tracking, point tracking, temporal action localisation, temporal sound localisation, multiple-choice video question-answering, and grounded video question-answering. We summarise in this report the task descriptions, metrics, baselines, and results.

arxiv情報

著者 Joseph Heyward,João Carreira,Dima Damen,Andrew Zisserman,Viorica Pătrăucean
発行日 2023-12-20 15:12:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク