Keyword-Oriented Multimodal Modeling for Euphemism Identification

要約

陶酔感の識別は、「雑草」(e曲表現)を「マリファナ」(ターゲットキーワード)に違法テキストで「マリファナ」(ターゲットキーワード)にリンクし、コンテンツの節度を支援し、地下市場との闘いなど、e曲表現の真の意味を解読します。
既存の方法は主にテキストベースですが、ソーシャルメディアの台頭は、テキスト、画像、オーディオを組み込むマルチモーダル分析の必要性を強調しています。
ただし、e曲表現のためのマルチモーダルデータセットの欠如は、さらなる研究を制限します。
これに対処するために、e曲表現とその対応するターゲットキーワードをキーワードと見なし、最初にテキスト、画像、スピーチを含む3つのデータセット(薬物、武器、セクシュアリティ)を含む、キーワード指向のe曲表現(KOM-euph)を紹介します。
さらに、クロスモーダル機能のアライメントと動的融合モジュールを使用して、キーワードの視覚的および音声機能を効率的なef間主義識別のために明示的に利用するキーワード指向のマルチモーダルe曲識別法(KOM-EI)をさらに提案します。
広範な実験は、KOM-EIが最先端のモデルと大規模な言語モデルよりも優れていることを示しており、マルチモーダルデータセットの重要性を示しています。

要約(オリジナル)

Euphemism identification deciphers the true meaning of euphemisms, such as linking ‘weed’ (euphemism) to ‘marijuana’ (target keyword) in illicit texts, aiding content moderation and combating underground markets. While existing methods are primarily text-based, the rise of social media highlights the need for multimodal analysis, incorporating text, images, and audio. However, the lack of multimodal datasets for euphemisms limits further research. To address this, we regard euphemisms and their corresponding target keywords as keywords and first introduce a keyword-oriented multimodal corpus of euphemisms (KOM-Euph), involving three datasets (Drug, Weapon, and Sexuality), including text, images, and speech. We further propose a keyword-oriented multimodal euphemism identification method (KOM-EI), which uses cross-modal feature alignment and dynamic fusion modules to explicitly utilize the visual and audio features of the keywords for efficient euphemism identification. Extensive experiments demonstrate that KOM-EI outperforms state-of-the-art models and large language models, and show the importance of our multimodal datasets.

arxiv情報

著者 Yuxue Hu,Junsong Li,Meixuan Chen,Dongyu Su,Tongguan Wang,Ying Sha
発行日 2025-03-27 13:45:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク