Exploring Fine-Grained Audiovisual Categorization with the SSW60 Dataset

要約

視聴覚のきめ細かい分類に関する研究を進めるための新しいベンチマークデータセット、Sapsucker Woods 60(SSW60)を紹介します。
私たちのコミュニティは画像のきめ細かい視覚的分類で大きな進歩を遂げましたが、オーディオとビデオのきめ細かい分類の対応物は比較的未踏です。
この分野での進歩を促進するために、SSW60データセットを慎重に構築し、研究者が同じカテゴリのセットを画像、音声、ビデオの3つの異なるモダリティに分類して実験できるようにしました。
このデータセットは60種の鳥を対象としており、既存のデータセットの画像と、専門家が厳選した新しいオーディオおよびビデオのデータセットで構成されています。
最先端のトランスフォーマー手法を使用して、視聴覚分類のパフォーマンスとモダリティ融合実験のベンチマークを徹底的に行います。
私たちの調査結果は、視聴覚融合法のパフォーマンスは、ビデオ分類のタスクに画像または音声ベースの方法のみを使用するよりも優れていることを示しています。
また、3つの異なるモダリティを網羅するSSW60の独自の構築によって可能になった、興味深いモダリティ転送実験を紹介します。
SSW60データセットとそれに付随するベースラインが、この魅力的な分野の研究に拍車をかけることを願っています。

要約(オリジナル)

We present a new benchmark dataset, Sapsucker Woods 60 (SSW60), for advancing research on audiovisual fine-grained categorization. While our community has made great strides in fine-grained visual categorization on images, the counterparts in audio and video fine-grained categorization are relatively unexplored. To encourage advancements in this space, we have carefully constructed the SSW60 dataset to enable researchers to experiment with classifying the same set of categories in three different modalities: images, audio, and video. The dataset covers 60 species of birds and is comprised of images from existing datasets, and brand new, expert-curated audio and video datasets. We thoroughly benchmark audiovisual classification performance and modality fusion experiments through the use of state-of-the-art transformer methods. Our findings show that performance of audiovisual fusion methods is better than using exclusively image or audio based methods for the task of video classification. We also present interesting modality transfer experiments, enabled by the unique construction of SSW60 to encompass three different modalities. We hope the SSW60 dataset and accompanying baselines spur research in this fascinating area.

arxiv情報

著者 Grant Van Horn,Rui Qian,Kimberly Wilber,Hartwig Adam,Oisin Mac Aodha,Serge Belongie
発行日 2022-07-21 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク