CN-Celeb-AV: A Multi-Genre Audio-Visual Dataset for Person Recognition

要約

オーディオビジュアル人物認識 (AVPR) は大きな注目を集めています。
ただし、これまで AVPR 研究に使用されているデータセットのほとんどは、制約された環境で収集されているため、現実世界のシナリオにおける AVPR システムの真のパフォーマンスを反映できません。
制約のない条件下での AVPR に関する研究の要求に応えるために、この論文では、CN-Celeb-AV と名付けられた、「野生」で収集された多ジャンルの AVPR データセットを紹介します。
このデータセットには、公共メディアの 1,136 人からの 419,000 を超えるビデオ セグメントが含まれています。
特に、次の 2 つの現実世界の複雑さに重点を置きます。(1) 複数のジャンルのデータ。
(2) 部分的な情報を含むセグメント。
CN-Celeb-AV を 2 つの一般的な AVPR ベンチマーク データセットと比較するために包括的な調査が実施されました。その結果、CN-Celeb-AV が現実世界のシナリオにより一致しており、AVPR の新しいベンチマーク データセットとみなせることが実証されました。
リサーチ。
このデータセットには、現実の状況で AVPR システムのパフォーマンスを向上させるために使用できる開発セットも含まれています。
このデータセットは研究者にとって無料であり、http://cnceleb.org/ からダウンロードできます。

要約(オリジナル)

Audio-visual person recognition (AVPR) has received extensive attention. However, most datasets used for AVPR research so far are collected in constrained environments, and thus cannot reflect the true performance of AVPR systems in real-world scenarios. To meet the request for research on AVPR in unconstrained conditions, this paper presents a multi-genre AVPR dataset collected `in the wild’, named CN-Celeb-AV. This dataset contains more than 419k video segments from 1,136 persons from public media. In particular, we put more emphasis on two real-world complexities: (1) data in multiple genres; (2) segments with partial information. A comprehensive study was conducted to compare CN-Celeb-AV with two popular public AVPR benchmark datasets, and the results demonstrated that CN-Celeb-AV is more in line with real-world scenarios and can be regarded as a new benchmark dataset for AVPR research. The dataset also involves a development set that can be used to boost the performance of AVPR systems in real-life situations. The dataset is free for researchers and can be downloaded from http://cnceleb.org/.

arxiv情報

著者 Lantian Li,Xiaolou Li,Haoyu Jiang,Chen Chen,Ruihai Hou,Dong Wang
発行日 2023-07-28 15:13:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク