SSLCL: An Efficient Model-Agnostic Supervised Contrastive Learning Framework for Emotion Recognition in Conversations

要約

会話における感情認識 (ERC) は、自然言語処理コミュニティ内で急速に進化しているタスクであり、会話中に話者が表現した感情を検出することを目的としています。
最近では、教師あり対比学習 (SCL) を活用して、学習された特徴の堅牢性と一般化性を強化することに焦点を当てた ERC 手法が増えています。
ただし、ERC における現在の SCL ベースのアプローチは、大きなバッチ サイズの制約と、ほとんどの既存の ERC モデルとの互換性の欠如によって妨げられています。
これらの課題に対処するために、私たちは、Soft-HGR Maximal Correlation を使用した教師ありサンプルラベル対照学習 (SSLCL) という名前の効率的でモデルに依存しない SCL フレームワークを提案します。これにより、大きなバッチ サイズの必要性がなくなり、既存の ERC モデルとシームレスに統合できます。
モデル固有の仮定を導入することなく。
具体的には、浅い多層パーセプトロンを介して離散ラベルを高密度埋め込みに投影することでラベル表現を活用する新しい視点を導入し、サンプル特徴とそれに対応するグラウンドトゥルースラベル埋め込み間の類似性を最大化すると同時に、サンプル特徴間の類似性を最小限に抑えるトレーニング目標を定式化します。
サンプル機能と異種クラスのラベル埋め込み。
さらに、サンプルの特徴とラベルの埋め込み間の類似性の尺度として Soft-HGR 最大相関を革新的に採用し、従来の類似性尺度に比べて大幅なパフォーマンスの向上につながります。
さらに、発話のマルチモーダル キューは、モデルのパフォーマンスを向上させるデータ拡張として SSLCL によって効果的に活用されます。
2 つの ERC ベンチマーク データセット、IEMOCAP と MELD に対する広範な実験により、既存の最先端の SCL 手法と比較して、私たちが提案する SSLCL フレームワークの互換性と優位性が実証されました。
私たちのコードは \url{https://github.com/TaoShi1998/SSLCL} で入手できます。

要約(オリジナル)

Emotion recognition in conversations (ERC) is a rapidly evolving task within the natural language processing community, which aims to detect the emotions expressed by speakers during a conversation. Recently, a growing number of ERC methods have focused on leveraging supervised contrastive learning (SCL) to enhance the robustness and generalizability of learned features. However, current SCL-based approaches in ERC are impeded by the constraint of large batch sizes and the lack of compatibility with most existing ERC models. To address these challenges, we propose an efficient and model-agnostic SCL framework named Supervised Sample-Label Contrastive Learning with Soft-HGR Maximal Correlation (SSLCL), which eliminates the need for a large batch size and can be seamlessly integrated with existing ERC models without introducing any model-specific assumptions. Specifically, we introduce a novel perspective on utilizing label representations by projecting discrete labels into dense embeddings through a shallow multilayer perceptron, and formulate the training objective to maximize the similarity between sample features and their corresponding ground-truth label embeddings, while minimizing the similarity between sample features and label embeddings of disparate classes. Moreover, we innovatively adopt the Soft-HGR maximal correlation as a measure of similarity between sample features and label embeddings, leading to significant performance improvements over conventional similarity measures. Additionally, multimodal cues of utterances are effectively leveraged by SSLCL as data augmentations to boost model performances. Extensive experiments on two ERC benchmark datasets, IEMOCAP and MELD, demonstrate the compatibility and superiority of our proposed SSLCL framework compared to existing state-of-the-art SCL methods. Our code is available at \url{https://github.com/TaoShi1998/SSLCL}.

arxiv情報

著者 Tao Shi,Xiao Liang,Yaoyuan Liang,Xinyi Tong,Shao-Lun Huang
発行日 2023-10-25 14:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク