Latent Feature-based Data Splits to Improve Generalisation Evaluation: A Hate Speech Detection Case Study

要約

ソーシャル メディア プラットフォームの存在感が高まるにつれ、有害なコンテンツの拡散が増加し、堅牢なヘイトスピーチ検出システムの必要性が高まっています。
このようなシステムは特定のターゲットやキーワードに容易に過剰適合し、トレーニング データとテスト データの間で発生する可能性のある分布の変化を考慮せずにシステムを評価すると、その利点が過大評価されます。
私たちは、モデルの隠れた表現のクラスタリングに依存する既存のデータセットの新しいトレーニングとテストの分割を通じてヘイトスピーチ モデルに挑戦します。
2 つの分割バリアント (Subset-Sum-Split と Closest-Split) を紹介します。これらは、4 つの事前学習済みモデルを使用して 2 つのデータセットに適用すると、潜在空間の盲点でモデルがどのように壊滅的に失敗するかを明らかにします。
この結果は、あるモデルで分割を開発し、それを別のモデルで評価する場合に一般化されます。
私たちの分析では、パフォーマンスの低下と相関するデータ分割の明確な表面レベルの特性は存在しないことが示唆されており、これはタスクの困難さが常に人間によって解釈できるわけではないことを強調しています。
潜在機能ベースの分割をモデル開発に組み込み、GenBench ベンチマーク経由で 2 つの分割をリリースすることをお勧めします。

要約(オリジナル)

With the ever-growing presence of social media platforms comes the increased spread of harmful content and the need for robust hate speech detection systems. Such systems easily overfit to specific targets and keywords, and evaluating them without considering distribution shifts that might occur between train and test data overestimates their benefit. We challenge hate speech models via new train-test splits of existing datasets that rely on the clustering of models’ hidden representations. We present two split variants (Subset-Sum-Split and Closest-Split) that, when applied to two datasets using four pretrained models, reveal how models catastrophically fail on blind spots in the latent space. This result generalises when developing a split with one model and evaluating it on another. Our analysis suggests that there is no clear surface-level property of the data split that correlates with the decreased performance, which underscores that task difficulty is not always humanly interpretable. We recommend incorporating latent feature-based splits in model development and release two splits via the GenBench benchmark.

arxiv情報

著者 Maike Züfle,Verna Dankers,Ivan Titov
発行日 2023-11-16 23:49:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク