Unsupervised Multiview Contrastive Language-Image Joint Learning with Pseudo-Labeled Prompts Via Vision-Language Model for 3D/4D Facial Expression Recognition

要約

このペーパーでは、3D/4Dデータからの顔の感情の監視されていない対照的なマルチビュー表現学習のために設計されたビジョン言語モデルであるMultiViewVLMを紹介します。
当社のアーキテクチャは、生成されたテキストプロンプトから派生した擬似ラベルを統合して、感情的なセマンティクスの暗黙のアライメントを導きます。
マルチビュー全体で共有情報をキャプチャするために、明示的な監督を必要とせずにマルチビュー表現を揃えるジョイント埋め込みスペースを提案します。
さらに、安定したポジティブネガティブペアサンプリングを活用する新しいマルチビューコントラスト学習戦略を通じて、モデルの識別性を高めます。
勾配に優しい損失関数が導入され、よりスムーズで安定した収束を促進し、モデルはスケーラビリティを確保するために分散トレーニング用に最適化されています。
広範な実験は、MultiViewVLMが既存の最先端の方法よりも優れており、最小限の変更でさまざまな現実世界のアプリケーションに簡単に適応できることを示しています。

要約(オリジナル)

In this paper, we introduce MultiviewVLM, a vision-language model designed for unsupervised contrastive multiview representation learning of facial emotions from 3D/4D data. Our architecture integrates pseudo-labels derived from generated textual prompts to guide implicit alignment of emotional semantics. To capture shared information across multi-views, we propose a joint embedding space that aligns multiview representations without requiring explicit supervision. We further enhance the discriminability of our model through a novel multiview contrastive learning strategy that leverages stable positive-negative pair sampling. A gradient-friendly loss function is introduced to promote smoother and more stable convergence, and the model is optimized for distributed training to ensure scalability. Extensive experiments demonstrate that MultiviewVLM outperforms existing state-of-the-art methods and can be easily adapted to various real-world applications with minimal modifications.

arxiv情報

著者 Muzammil Behzad
発行日 2025-05-14 12:31:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク