要約
私たちは、皮肉のさまざまな特徴を含む 4 つの皮肉データセットで微調整したときの動作を調べることにより、皮肉検出モデルの堅牢性をテストしました: ラベルソース (作成者とサードパーティ)、ドメイン (ソーシャルメディア/オンラインとオフラインの会話/対話)
、スタイル(攻撃的対ユーモラスな嘲笑)。
同じデータセット (データセット内) および異なるデータセット間 (データセット間) で予測パフォーマンスをテストしました。
データセット内予測の場合、作成者ラベルではなくサードパーティのラベルを使用して微調整した場合、モデルのパフォーマンスが一貫して向上しました。
データセット間の予測では、ほとんどのモデルが他のデータセットにうまく一般化できませんでした。これは、1 つのタイプのデータセットが、異なるスタイルやドメインであらゆる種類の皮肉を表現できないことを意味します。
既存のデータセットと比較して、今回リリースした新しいデータセットで微調整されたモデルは、他のデータセットに対して最も高い一般化性を示しました。
データセットを手動で検査し、事後分析を行った結果、一般化が難しいのは、皮肉には実際にはさまざまな分野やスタイルがあるという事実が原因であると考えられました。
私たちは、今後の皮肉の研究では、幅広い範囲の皮肉を考慮に入れる必要があると主張します。
要約(オリジナル)
We tested the robustness of sarcasm detection models by examining their behavior when fine-tuned on four sarcasm datasets containing varying characteristics of sarcasm: label source (authors vs. third-party), domain (social media/online vs. offline conversations/dialogues), style (aggressive vs. humorous mocking). We tested their prediction performance on the same dataset (intra-dataset) and across different datasets (cross-dataset). For intra-dataset predictions, models consistently performed better when fine-tuned with third-party labels rather than with author labels. For cross-dataset predictions, most models failed to generalize well to the other datasets, implying that one type of dataset cannot represent all sorts of sarcasm with different styles and domains. Compared to the existing datasets, models fine-tuned on the new dataset we release in this work showed the highest generalizability to other datasets. With a manual inspection of the datasets and post-hoc analysis, we attributed the difficulty in generalization to the fact that sarcasm actually comes in different domains and styles. We argue that future sarcasm research should take the broad scope of sarcasm into account.
arxiv情報
著者 | Hyewon Jang,Diego Frassinelli |
発行日 | 2024-04-09 14:48:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google