Historical Ink: Exploring Large Language Models for Irony Detection in 19th-Century Spanish

要約

この研究では、19世紀のラテンアメリカの新聞でのデータセットを強化し、皮肉の検出を改善するために、大規模な言語モデル(LLMS)の使用を調査します。
マルチクラスとバイナリ分類タスクの両方を通じて、皮肉の微妙なニュアンスの性質をキャプチャする際に、BERTおよびGPT-4Oモデルの有効性を評価するために2つの戦略が採用されました。
最初に、感情的および文脈的な手がかりを豊かにすることに焦点を当てたデータセットの強化を実装しました。
ただし、これらは歴史的な言語分析に限られた影響を示しました。
2番目の戦略である半自動注釈プロセスは、クラスの不均衡に効果的に対処し、高品質の注釈でデータセットを増強しました。
皮肉の複雑さによってもたらされる課題にもかかわらず、この作業は、2つの重要な貢献を通じて感情分析の進歩に貢献します。センチメント分析と皮肉検出のためにタグ付けされた新しい歴史的なスペインのデータセットの導入と、人間の専門知識がLLMSを洗練するために重要である半自動注釈方法を提案し、歴史的文脈を補充し、COREとCOREの導入と文化的な文脈を豊かにします。

要約(オリジナル)

This study explores the use of large language models (LLMs) to enhance datasets and improve irony detection in 19th-century Latin American newspapers. Two strategies were employed to evaluate the efficacy of BERT and GPT-4o models in capturing the subtle nuances nature of irony, through both multi-class and binary classification tasks. First, we implemented dataset enhancements focused on enriching emotional and contextual cues; however, these showed limited impact on historical language analysis. The second strategy, a semi-automated annotation process, effectively addressed class imbalance and augmented the dataset with high-quality annotations. Despite the challenges posed by the complexity of irony, this work contributes to the advancement of sentiment analysis through two key contributions: introducing a new historical Spanish dataset tagged for sentiment analysis and irony detection, and proposing a semi-automated annotation methodology where human expertise is crucial for refining LLMs results, enriched by incorporating historical and cultural contexts as core features.

arxiv情報

著者 Kevin Cohen,Laura Manrique-Gómez,Rubén Manrique
発行日 2025-03-28 16:33:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DL, I.2.7 パーマリンク