A Survey of Multimodal Sarcasm Detection

要約

皮肉は、発言の文字通りの意味とは反対のことを伝えるために使用される修辞法です。
皮肉はソーシャル メディアやその他のコンピュータを介したコミュニケーションで広く使用されており、皮肉を自動的に識別するための計算モデルの使用が動機付けられています。
皮肉検出へのアプローチの明らかに大多数はテキストのみに対して実行されていますが、皮肉検出には多くの場合、口調、顔の表情、および文脈上の画像に存在する追加情報が必要です。
これにより、マルチモーダル モデルが導入され、音声、画像、テキスト、ビデオなどの複数のモダリティで皮肉を検出できる可能性が開かれました。
この論文では、マルチモーダル皮肉検出 (以下、MSD) に関するこれまでの最初の包括的な調査を紹介します。
このテーマに関して 2018 年から 2023 年に発行された論文を調査し、このタスクに使用されたモデルとデータセットについて議論します。
また、MSD における今後の研究の方向性も示します。

要約(オリジナル)

Sarcasm is a rhetorical device that is used to convey the opposite of the literal meaning of an utterance. Sarcasm is widely used on social media and other forms of computer-mediated communication motivating the use of computational models to identify it automatically. While the clear majority of approaches to sarcasm detection have been carried out on text only, sarcasm detection often requires additional information present in tonality, facial expression, and contextual images. This has led to the introduction of multimodal models, opening the possibility to detect sarcasm in multiple modalities such as audio, images, text, and video. In this paper, we present the first comprehensive survey on multimodal sarcasm detection – henceforth MSD – to date. We survey papers published between 2018 and 2023 on the topic, and discuss the models and datasets used for this task. We also present future research directions in MSD.

arxiv情報

著者 Shafkat Farabi,Tharindu Ranasinghe,Diptesh Kanojia,Yu Kong,Marcos Zampieri
発行日 2024-10-24 16:17:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク