Towards Weakly-Supervised Hate Speech Classification Across Datasets

要約

何人かの学者が指摘しているように、ヘイトスピーチ (HS) 認識に関する現在の研究は、非体系的なデータ作成戦略と多様な注釈スキーマによって特徴付けられています。
その後、教師あり学習モデルは、トレーニングされていないデータセットに対して一般化が不十分になる傾向があり、異なる HS 分類法を使用してラベル付けされたデータセットでトレーニングされたモデルのパフォーマンスを比較することができません。
この問題を緩和するために、アノテーション付きデータのクラス サンプルではなくクラス名のみに依存する非常に弱い監視を適用することを提案します。
さまざまなデータセット内およびデータセット間の設定における、最先端の弱教師テキスト分類モデルの有効性を実証します。
さらに、HS 分類モデルの一般化性の低さの原因について詳細な定量的および定性分析を実行します。

要約(オリジナル)

As pointed out by several scholars, current research on hate speech (HS) recognition is characterized by unsystematic data creation strategies and diverging annotation schemata. Subsequently, supervised-learning models tend to generalize poorly to datasets they were not trained on, and the performance of the models trained on datasets labeled using different HS taxonomies cannot be compared. To ease this problem, we propose applying extremely weak supervision that only relies on the class name rather than on class samples from the annotated data. We demonstrate the effectiveness of a state-of-the-art weakly-supervised text classification model in various in-dataset and cross-dataset settings. Furthermore, we conduct an in-depth quantitative and qualitative analysis of the source of poor generalizability of HS classification models.

arxiv情報

著者 Yiping Jin,Leo Wanner,Vishakha Laxman Kadam,Alexander Shvets
発行日 2024-05-27 13:23:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク