要約
このホワイトペーパーでは、3D/4Dデータからの顔の感情の意味的に豊富で視覚的に包括的な理解のためにマルチビューを統合するように設計されたビジョン言語モデルであるEfffutVLMを紹介します。
視覚的特徴を効果的にキャプチャするために、モデルの収束を最適な特徴表現に加速する新しいグラデーションに優しい損失関数と組み合わせた共同表現学習フレームワークを提案します。
さらに、モデルの言語機能を強化し、視覚データセットを拡張するために混合ビューの増強を採用するために、拡張されたテキストプロンプトを導入します。
また、リアルタイムのインタラクティブな推論用の流線ライトアプリを開発し、分散学習のモデルを有効にします。
広範な実験では、複数のベンチマークにわたるEfffutVLMの優れたパフォーマンスを検証します。
要約(オリジナル)
In this paper, we introduce AffectVLM, a vision-language model designed to integrate multiviews for a semantically rich and visually comprehensive understanding of facial emotions from 3D/4D data. To effectively capture visual features, we propose a joint representation learning framework paired with a novel gradient-friendly loss function that accelerates model convergence towards optimal feature representation. Additionally, we introduce augmented textual prompts to enhance the model’s linguistic capabilities and employ mixed view augmentation to expand the visual dataset. We also develop a Streamlit app for a real-time interactive inference and enable the model for distributed learning. Extensive experiments validate the superior performance of AffectVLM across multiple benchmarks.
arxiv情報
著者 | Muzammil Behzad,Guoying Zhao |
発行日 | 2025-04-28 12:36:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google