要約
ベンチマーク (一連のデータセット) を構築する目的は、公正な評価のための統一されたプロトコルを提供し、特定の領域の進化を促進することです。
それにもかかわらず、アクション認識の既存のプロトコルは、いくつかの制限のために部分的な評価をもたらす可能性があることを指摘します。
時空間表現学習の有効性を包括的に調査するために、ビデオ アクション認識の新しいベンチマークである BEAR を導入します。
BEAR は、5 つのカテゴリ (異常、ジェスチャー、日常、スポーツ、教育) にグループ化された 18 のビデオ データセットのコレクションであり、さまざまな実世界のアプリケーションをカバーしています。
BEAR を使用して、教師あり学習と自己教師あり学習の両方によって事前トレーニングされた 6 つの一般的な時空間モデルを徹底的に評価します。
また、標準の微調整、少数ショットの微調整、および教師なしドメイン適応による転送パフォーマンスも報告します。
私たちの観察によると、現在の最先端技術では、現実世界のアプリケーションに近いデータセットで高いパフォーマンスを確実に保証することはできず、次世代の時空間学習者を構築するための洞察を得るために、BEAR が公平で挑戦的な評価ベンチマークとして役立つことを願っています。
私たちのデータセット、コード、およびモデルは、https://github.com/AndongDeng/BEAR でリリースされています。
要約(オリジナル)
The goal of building a benchmark (suite of datasets) is to provide a unified protocol for fair evaluation and thus facilitate the evolution of a specific area. Nonetheless, we point out that existing protocols of action recognition could yield partial evaluations due to several limitations. To comprehensively probe the effectiveness of spatiotemporal representation learning, we introduce BEAR, a new BEnchmark on video Action Recognition. BEAR is a collection of 18 video datasets grouped into 5 categories (anomaly, gesture, daily, sports, and instructional), which covers a diverse set of real-world applications. With BEAR, we thoroughly evaluate 6 common spatiotemporal models pre-trained by both supervised and self-supervised learning. We also report transfer performance via standard finetuning, few-shot finetuning, and unsupervised domain adaptation. Our observation suggests that current state-of-the-art cannot solidly guarantee high performance on datasets close to real-world applications, and we hope BEAR can serve as a fair and challenging evaluation benchmark to gain insights on building next-generation spatiotemporal learners. Our dataset, code, and models are released at: https://github.com/AndongDeng/BEAR
arxiv情報
著者 | Andong Deng,Taojiannan Yang,Chen Chen |
発行日 | 2023-03-23 17:58:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google