要約
ソーシャルメディアの普及により、有害な影響を制限するために攻撃的なコンテンツを信頼性が高く効率的に検出する必要性が生じています。
これにより、攻撃的なコンテンツの検出に関連するデータセットとモデルが急増しました。
洗練されたモデルは個々のデータセットで優れたパフォーマンスを達成していますが、「不快なコンテンツ」の概念化方法の違いと、その結果生じるデータセットのラベル付け方法の違いにより、これらのモデルは一般化できないことがよくあります。
この論文では、GPT-3.5-Turbo によって生成され、人間がキュレートした説明を備えた、さまざまな既存のソースから抽出された 52,000 個のサンプルのデータセットである HateCOT を紹介します。
HateCOT で攻撃的なコンテンツを検出するための事前トレーニング モデルが、ドメインとタスクの違いにもかかわらず、ゼロ ショット設定と少数ショット設定の両方で 3 つのベンチマーク データセットでオープンソースの言語モデルを大幅に起動することを示しました。} さらに、HateCOT が効果的な
低リソース設定での K-shot の微調整。
要約(オリジナル)
The ubiquitousness of social media has led to the need for reliable and efficient detection of offensive content to limit harmful effects. This has led to a proliferation of datasets and models related to detecting offensive content. While sophisticated models have attained strong performance on individual datasets, these models often do not generalize due to differences between how ‘offensive content’ is conceptualized, and the resulting differences in how these datasets are labeled. In this paper, we introduce HateCOT, a dataset of 52,000 samples drawn from diverse existing sources with explanations generated by GPT-3.5-Turbo and human-curated. We show that pre-training models for the detection of offensive content on HateCOT significantly boots open-sourced Language Models on three benchmark datasets in both zero and few-shot settings, despite differences in domain and task.} We further find that HateCOT enables effective K-shot fine-tuning in the low-resource settings.
arxiv情報
著者 | Huy Nghiem,Hal Daumé III |
発行日 | 2024-03-18 04:12:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google