Impact of emoji exclusion on the performance of Arabic sarcasm detection models

要約

ソーシャルメディア上のアラビア語音声から皮肉を検出するという複雑な課題は、言語の多様性と皮肉表現の性質によって増大する。アラビア語の皮肉を効果的に解釈する既存のモデルの能力には大きな隔たりがあり、より洗練された正確な検出方法が必要である。本稿では、皮肉音声検出における基本的な前処理要素の影響を調査する。絵文字は現代のコミュニケーションにおいて、ボディランゲージや表情の不在効果を緩和する上で重要な役割を果たしているが、自動テキスト分析、特に皮肉検出における絵文字の影響は、まだ十分に検討されていない。我々は、語彙が豊富なアラビア語のソーシャルメディアコンテンツにおける皮肉検出モデルの性能に対する、データセットからの絵文字除外の影響を調査する。この調査には、皮肉検出能力を向上させるために、特に絵文字を除外したAraBERT事前学習モデルの適応と強化が含まれる。我々は、AraBERT事前トレーニングを使用して、指定されたモデルを改良し、絵文字を除去することで、皮肉検出の精度が大幅に向上することを実証する。このアプローチは、より洗練された言語の解釈を容易にし、非テキスト要素によってもたらされる潜在的な混乱を排除する。評価されたAraBERTモデルは、絵文字の除去という集中的な戦略を通じて、アラビア語の皮肉の複雑さを巧みにナビゲートしている。この研究は、アラビア語の自然言語処理における新たなベンチマークを確立し、ソーシャルメディアプラットフォームのための貴重な洞察を提示している。

要約(オリジナル)

The complex challenge of detecting sarcasm in Arabic speech on social media is increased by the language diversity and the nature of sarcastic expressions. There is a significant gap in the capability of existing models to effectively interpret sarcasm in Arabic, which mandates the necessity for more sophisticated and precise detection methods. In this paper, we investigate the impact of a fundamental preprocessing component on sarcasm speech detection. While emojis play a crucial role in mitigating the absence effect of body language and facial expressions in modern communication, their impact on automated text analysis, particularly in sarcasm detection, remains underexplored. We investigate the impact of emoji exclusion from datasets on the performance of sarcasm detection models in social media content for Arabic as a vocabulary-super rich language. This investigation includes the adaptation and enhancement of AraBERT pre-training models, specifically by excluding emojis, to improve sarcasm detection capabilities. We use AraBERT pre-training to refine the specified models, demonstrating that the removal of emojis can significantly boost the accuracy of sarcasm detection. This approach facilitates a more refined interpretation of language, eliminating the potential confusion introduced by non-textual elements. The evaluated AraBERT models, through the focused strategy of emoji removal, adeptly navigate the complexities of Arabic sarcasm. This study establishes new benchmarks in Arabic natural language processing and presents valuable insights for social media platforms.

arxiv情報

著者 Ghalyah H. Aleryani,Wael Deabes,Khaled Albishre,Alaa E. Abdel-Hakim
発行日 2024-05-03 15:51:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク