CILF-CIAE: CLIP-driven Image-Language Fusion for Correcting Inverse Age Estimation

要約

年齢推定タスクは、画像内の顔の特徴を分析することによって個人の年齢を予測することを目的としています。
年齢推定の開発により、さまざまなアプリケーション (年齢認証や安全なアクセス制御など) の効率と精度を向上させることができます。
近年、対照的言語イメージ事前トレーニング (CLIP) がさまざまなマルチモーダルタスクで広く使用されており、年齢推定の分野でもある程度の進歩を遂げています。
しかし、既存の CLIP ベースの年齢推定方法では、画像をグローバルにモデリングする際に高いメモリ使用量 (二次計算量) が必要であり、年齢予測結果の品質についてモデルに指示するためのエラー フィードバック メカニズムがありません。
上記の問題に取り組むために、私たちは逆年齢推定を修正するための新しい CLIP 駆動の画像言語融合 (CILF-CIAE) を提案します。
具体的には、まず CLIP モデルを導入して、画像の特徴とテキストの意味情報をそれぞれ抽出し、それらを意味的に高度に調整された高次元の特徴空間にマッピングします。
次に、チャネル進化と画像の空間的相互作用を実現し、画像とテキストの意味情報を融合するための新しい Transformer アーキテクチャ (つまり、FourierFormer) を設計しました。
注意メカニズムの二次複雑さと比較して、提案されたフーリエフォーマーは線形対数複雑さです。
画像とテキストの特徴間の意味論的なギャップをさらに狭めるために、画像とテキストのマッチングのコントラスト損失を通じてフーリエフォーマーのマルチモーダル融合プロセスを監視する効率的なコントラストマルチモーダル学習モジュールを利用し、それによって異なるモダリティ間の相互作用効果を改善します。
最後に、可逆年齢推定を導入します。これは、エンドツーエンドのエラー フィードバックを使用して年齢予測の誤り率を低減します。
CILF-CIAE は、複数のデータセットに対する広範な実験を通じて、より優れた年齢予測結果を達成しました。

要約(オリジナル)

The age estimation task aims to predict the age of an individual by analyzing facial features in an image. The development of age estimation can improve the efficiency and accuracy of various applications (e.g., age verification and secure access control, etc.). In recent years, contrastive language-image pre-training (CLIP) has been widely used in various multimodal tasks and has made some progress in the field of age estimation. However, existing CLIP-based age estimation methods require high memory usage (quadratic complexity) when globally modeling images, and lack an error feedback mechanism to prompt the model about the quality of age prediction results. To tackle the above issues, we propose a novel CLIP-driven Image-Language Fusion for Correcting Inverse Age Estimation (CILF-CIAE). Specifically, we first introduce the CLIP model to extract image features and text semantic information respectively, and map them into a highly semantically aligned high-dimensional feature space. Next, we designed a new Transformer architecture (i.e., FourierFormer) to achieve channel evolution and spatial interaction of images, and to fuse image and text semantic information. Compared with the quadratic complexity of the attention mechanism, the proposed Fourierformer is of linear log complexity. To further narrow the semantic gap between image and text features, we utilize an efficient contrastive multimodal learning module that supervises the multimodal fusion process of FourierFormer through contrastive loss for image-text matching, thereby improving the interaction effect between different modalities. Finally, we introduce reversible age estimation, which uses end-to-end error feedback to reduce the error rate of age predictions. Through extensive experiments on multiple data sets, CILF-CIAE has achieved better age prediction results.

arxiv情報

著者 Yuntao Shou,Wei Ai,Tao Meng,Keqin Li
発行日 2024-07-01 13:31:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク