Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue

要約

対話における皮肉の説明 (SED) は、新しいながらもやりがいのあるタスクであり、複数のモダリティ (つまり、発話、ビデオ、オーディオ) を含む特定の皮肉な対話に対する自然言語の説明を生成することを目的としています。
既存の研究は、事前学習済み生成言語モデル BART に基づいて大きな成功を収めていますが、本質的に微妙な感情の対比を伴う皮肉を反映する上で重要な役割を果たす、発話、ビデオ、およびオーディオに存在する感情の利用を見落としています。
それにもかかわらず、SED のパフォーマンスを向上させるために感情を組み込むことは簡単ではありません。その理由は次の 3 つの主な課題があります。1) 感情に対する発話トークンの多様な影響。
2) ビデオとオーディオの感情信号と BART の埋め込み空間との間のギャップ。
3)発話、発話感情、映像音声感情間の様々な関係。
これらの課題に取り組むために、私たちは EDGE と呼ばれる、新しい感情強化グラフベースのマルチモーダル皮肉説明フレームワークを提案します。
特に、我々はまず、ヒューリスティックな発話感情改良戦略が考案される、辞書に基づいた発話感情推論モジュールを提案します。
次に、マルチモーダル感情分析モデル JCA を拡張して、ジョイント クロス アテンション ベースの感情推論 (JCA-SI) という名前のモジュールを開発し、各ビデオ オーディオ クリップの共同感情ラベルを導出します。
その後、皮肉な説明の生成を容易にするために、発話、発話センチメント、およびビデオオーディオセンチメントの間の意味関係を包括的にモデル化するコンテキストセンチメントグラフを考案します。
公開されているデータセット WITS に対する広範な実験により、最先端の手法に対するモデルの優位性が検証されています。

要約(オリジナル)

Sarcasm Explanation in Dialogue (SED) is a new yet challenging task, which aims to generate a natural language explanation for the given sarcastic dialogue that involves multiple modalities (\ie utterance, video, and audio). Although existing studies have achieved great success based on the generative pretrained language model BART, they overlook exploiting the sentiments residing in the utterance, video and audio, which play important roles in reflecting sarcasm that essentially involves subtle sentiment contrasts. Nevertheless, it is non-trivial to incorporate sentiments for boosting SED performance, due to three main challenges: 1) diverse effects of utterance tokens on sentiments; 2) gap between video-audio sentiment signals and the embedding space of BART; and 3) various relations among utterances, utterance sentiments, and video-audio sentiments. To tackle these challenges, we propose a novel sEntiment-enhanceD Graph-based multimodal sarcasm Explanation framework, named EDGE. In particular, we first propose a lexicon-guided utterance sentiment inference module, where a heuristic utterance sentiment refinement strategy is devised. We then develop a module named Joint Cross Attention-based Sentiment Inference (JCA-SI) by extending the multimodal sentiment analysis model JCA to derive the joint sentiment label for each video-audio clip. Thereafter, we devise a context-sentiment graph to comprehensively model the semantic relations among the utterances, utterance sentiments, and video-audio sentiments, to facilitate sarcasm explanation generation. Extensive experiments on the publicly released dataset WITS verify the superiority of our model over cutting-edge methods.

arxiv情報

著者 Kun Ouyang,Liqiang Jing,Xuemeng Song,Meng Liu,Yupeng Hu,Liqiang Nie
発行日 2025-01-06 06:01:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM パーマリンク