要約
制約のないビデオ設定で個人を識別することは、外観、環境、劣化、および遮蔽の変化により、生体認証分析において貴重ではありますが、困難なタスクです。
この論文では、3 次元の体型、ポーズ、外観を強調する、制御されていない環境におけるビデオベースの人物識別のためのマルチモーダル アプローチである ShARc を紹介します。
ポーズ アンド シェイプ エンコーダー (PSE) と集約外観エンコーダー (AAE) の 2 つのエンコーダーを導入します。
PSE は、バイナリ化されたシルエット、スケルトンの動き、および 3D 身体形状を介して身体形状をエンコードします。一方、AAE は、2 つのレベルの時間的外観特徴集約 (アテンションベースの特徴集約と平均化集約) を提供します。
アテンションベースの特徴集約では、空間的および時間的アテンションを使用して、人物を区別するための重要な領域に焦点を当てます。
集約を平均化するために、平均化後に新しい平坦化レイヤーを導入して、より識別可能な情報を抽出し、注意の過剰適合を軽減します。
ギャラリー登録には重心特徴の平均化を利用しています。
私たちは、CCVID、MEVID、BRIAR などの公開データセットに対する既存の最先端の手法に比べて大幅な改善を実証します。
要約(オリジナル)
Identifying individuals in unconstrained video settings is a valuable yet challenging task in biometric analysis due to variations in appearances, environments, degradations, and occlusions. In this paper, we present ShARc, a multimodal approach for video-based person identification in uncontrolled environments that emphasizes 3-D body shape, pose, and appearance. We introduce two encoders: a Pose and Shape Encoder (PSE) and an Aggregated Appearance Encoder (AAE). PSE encodes the body shape via binarized silhouettes, skeleton motions, and 3-D body shape, while AAE provides two levels of temporal appearance feature aggregation: attention-based feature aggregation and averaging aggregation. For attention-based feature aggregation, we employ spatial and temporal attention to focus on key areas for person distinction. For averaging aggregation, we introduce a novel flattening layer after averaging to extract more distinguishable information and reduce overfitting of attention. We utilize centroid feature averaging for gallery registration. We demonstrate significant improvements over existing state-of-the-art methods on public datasets, including CCVID, MEVID, and BRIAR.
arxiv情報
著者 | Haidong Zhu,Wanrong Zheng,Zhaoheng Zheng,Ram Nevatia |
発行日 | 2023-10-24 15:47:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google