要約
顔、体、声などのマルチモーダルな手がかりを使った人物のクラスタリングは、映画の解析やアイデンティティベースの映画編集などのさまざまなタスクにとって重要です。
マルチビュー クラスタリングなどの関連手法は、主にマルチモーダル フィーチャをジョイント フィーチャ空間に投影します。
ただし、マルチモーダル手がかりの特徴は、モダリティ固有の一意性からの意味論的なギャップにより、通常はかなり弱い相関関係になります。
結果として、これらの方法は人物のクラスタリングには適していません。
この論文では、マルチモーダル手がかりの分布表現を生成するための Relation-Aware Distributionpresentation Network (RAD-Net) を提案します。
手がかりの分布表現は、この手がかりとすべてのモダリティからの他のすべての手がかりの間の関係から構成されるベクトルであるため、モダリティに依存せず、人物のクラスタリングに適しています。
したがって、分布表現を構築するためにグラフベースの方法を導入し、周期的な更新ポリシーを採用して分布表現を段階的に改良します。
私たちの方法は、ビデオ人物クラスタリング データセット (VPCD) と VoxCeleb2 マルチビュー クラスタリング データセットの F スコアでそれぞれ +6% と +8.2% の大幅な改善を達成しました。
コードは承認され次第公開されます。
要約(オリジナル)
Person clustering with multi-modal clues, including faces, bodies, and voices, is critical for various tasks, such as movie parsing and identity-based movie editing. Related methods such as multi-view clustering mainly project multi-modal features into a joint feature space. However, multi-modal clue features are usually rather weakly correlated due to the semantic gap from the modality-specific uniqueness. As a result, these methods are not suitable for person clustering. In this paper, we propose a Relation-Aware Distribution representation Network (RAD-Net) to generate a distribution representation for multi-modal clues. The distribution representation of a clue is a vector consisting of the relation between this clue and all other clues from all modalities, thus being modality agnostic and good for person clustering. Accordingly, we introduce a graph-based method to construct distribution representation and employ a cyclic update policy to refine distribution representation progressively. Our method achieves substantial improvements of +6% and +8.2% in F-score on the Video Person-Clustering Dataset (VPCD) and VoxCeleb2 multi-view clustering dataset, respectively. Codes will be released publicly upon acceptance.
arxiv情報
著者 | Kaijian Liu,Shixiang Tang,Ziyue Li,Zhishuai Li,Lei Bai,Feng Zhu,Rui Zhao |
発行日 | 2023-08-01 15:04:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google