Self-supervised Video-centralised Transformer for Video Face Clustering

要約

この論文では、ビデオ集中型トランスフォーマーを使用して、ビデオで顔をクラスタリングするための新しい方法を紹介します。
以前の作品では、対照的な学習を使用してフレームレベルの表現を学習し、平均プーリングを使用して時間次元に沿って特徴を集約することがよくありました。
このアプローチでは、複雑なビデオ ダイナミクスを完全にキャプチャできない場合があります。
さらに、ビデオベースの対照学習の最近の進歩にもかかわらず、ビデオ顔クラスタリングタスクに役立つ自己教師付きクラスタリングに適した顔表現を学習しようとした人はほとんどいません。
これらの制限を克服するために、私たちの方法は、ビデオ内の顔の時間的に変化する特性をより適切に反映できるビデオレベルの表現を直接学習するためにトランスフォーマーを採用しています。
また、顔クラスタリングに関連する研究ではまだ研究されていない急速に出現している分野である、自己中心的なビデオでの顔クラスタリングも調査します。
この目的のために、EasyCom-Clustering という名前の最初の大規模な自己中心的なビデオ顔クラスタリング データセットを提示してリリースします。
広く使用されているビッグバン理論 (BBT) データセットと新しい EasyCom-Clustering データセットの両方で、提案された方法を評価します。
結果は、ビデオ中心型トランスフォーマーのパフォーマンスが、両方のベンチマークで以前のすべての最先端の方法を上回り、顔のビデオを自己注意で理解していることを示しています。

要約(オリジナル)

This paper presents a novel method for face clustering in videos using a video-centralised transformer. Previous works often employed contrastive learning to learn frame-level representation and used average pooling to aggregate the features along the temporal dimension. This approach may not fully capture the complicated video dynamics. In addition, despite the recent progress in video-based contrastive learning, few have attempted to learn a self-supervised clustering-friendly face representation that benefits the video face clustering task. To overcome these limitations, our method employs a transformer to directly learn video-level representations that can better reflect the temporally-varying property of faces in videos, while we also propose a video-centralised self-supervised framework to train the transformer model. We also investigate face clustering in egocentric videos, a fast-emerging field that has not been studied yet in works related to face clustering. To this end, we present and release the first large-scale egocentric video face clustering dataset named EasyCom-Clustering. We evaluate our proposed method on both the widely used Big Bang Theory (BBT) dataset and the new EasyCom-Clustering dataset. Results show the performance of our video-centralised transformer has surpassed all previous state-of-the-art methods on both benchmarks, exhibiting a self-attentive understanding of face videos.

arxiv情報

著者 Yujiang Wang,Mingzhi Dong,Jie Shen,Yiming Luo,Yiming Lin,Pingchuan Ma,Stavros Petridis,Maja Pantic
発行日 2023-02-15 18:30:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク