EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast

要約

現在の感情に基づいた対照的な言語 – audio事前トレーニング(clap)メソッドは、通常、オーディオサンプルを対応するテキストプロンプトとna \ ‘に整合することによって学習します。
その結果、このアプローチは感情の順序性をキャプチャすることができず、感情間の理解を妨げ、しばしばアラインメントが不十分なため、オーディオとテキストの埋め込みの間に広いモダリティギャップをもたらします。
これらの欠点を処理するために、感情的な音声と自然言語プロンプトの次元属性を使用して、きめ細かい感情の変化を共同でキャプチャし、クロスモーダルアライメントを改善する監視されたコントラスト学習アプローチである感情ランククラップを紹介します。
私たちのアプローチは、Valence-Arousal Spaceのランキングに基づいてサンプルをコントラストすることにより、RANK-N-Contrastの目的を利用して、秩序ある関係を学習します。
感情ランククラップは、クロスモーダル検索タスクを介して測定された、モダリティ全体の感情普通性をモデル化する際に既存の感情型の方法を上回ります。

要約(オリジナル)

Current emotion-based contrastive language-audio pretraining (CLAP) methods typically learn by na\’ively aligning audio samples with corresponding text prompts. Consequently, this approach fails to capture the ordinal nature of emotions, hindering inter-emotion understanding and often resulting in a wide modality gap between the audio and text embeddings due to insufficient alignment. To handle these drawbacks, we introduce EmotionRankCLAP, a supervised contrastive learning approach that uses dimensional attributes of emotional speech and natural language prompts to jointly capture fine-grained emotion variations and improve cross-modal alignment. Our approach utilizes a Rank-N-Contrast objective to learn ordered relationships by contrasting samples based on their rankings in the valence-arousal space. EmotionRankCLAP outperforms existing emotion-CLAP methods in modeling emotion ordinality across modalities, measured via a cross-modal retrieval task.

arxiv情報

著者 Shreeram Suresh Chandra,Lucas Goncalves,Junchen Lu,Carlos Busso,Berrak Sisman
発行日 2025-05-29 17:56:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク