要約
皮肉の検出は、特に意図された意味が文字通りの表現から逸脱している意見を伝えるという性質上、感情分析における重要な課題です。
この課題は、特にドラヴィダ語の言語でコードミキシングが一般的であるソーシャルメディアのコンテキストで高められます。
コードミックスには、多くの場合、非ネイティブスクリプトを使用して単一の発話内で複数の言語のブレンドが含まれ、単一言語データでトレーニングされたシステムのタスクを複雑にします。
この共有タスクは、特にタミル語とマラヤーラム語の英語言語で、コードミックスされたテキスト内で皮肉と感情の検出用に設計された新しいゴールドスタンダードコーパスを導入します。
このタスクの主な目的は、ソーシャルメディアプラットフォームから収集されたタミル語とマラヤラム語のコメントと投稿のコード混合データセット内で、皮肉と感情の極性を特定することです。
各コメントまたは投稿には、センチメントの極性のためにメッセージレベルで注釈が付けられ、特にクラスの不均衡がもたらす課題に注意を払って、実際のシナリオを反映しています。この作業では、GPT-3.5ターボなどの最先端の大規模な言語モデルを皮肉または非虐待カテゴリに分類するよう促すことを介して実験します。
タミル語で0.61のMacro-F1スコアを取得しました。
マラヤラム語で0.50のマクロ-F1スコアを取得しました。
要約(オリジナル)
Sarcasm detection is a significant challenge in sentiment analysis, particularly due to its nature of conveying opinions where the intended meaning deviates from the literal expression. This challenge is heightened in social media contexts where code-mixing, especially in Dravidian languages, is prevalent. Code-mixing involves the blending of multiple languages within a single utterance, often with non-native scripts, complicating the task for systems trained on monolingual data. This shared task introduces a novel gold standard corpus designed for sarcasm and sentiment detection within code-mixed texts, specifically in Tamil-English and Malayalam-English languages. The primary objective of this task is to identify sarcasm and sentiment polarity within a code-mixed dataset of Tamil-English and Malayalam-English comments and posts collected from social media platforms. Each comment or post is annotated at the message level for sentiment polarity, with particular attention to the challenges posed by class imbalance, reflecting real-world scenarios.In this work, we experiment with state-of-the-art large language models like GPT-3.5 Turbo via prompting to classify comments into sarcastic or non-sarcastic categories. We obtained a macro-F1 score of 0.61 for Tamil language. We obtained a macro-F1 score of 0.50 for Malayalam language.
arxiv情報
著者 | Aniket Deroy,Subhankar Maity |
発行日 | 2025-03-13 16:17:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google