Sociocultural knowledge is needed for selection of shots in hate speech detection tasks




– HATELEXICONと呼ばれるスラーとヘイトスピーチのターゲットのレキシコンを、ブラジル、ドイツ、インド、ケニアの4カ国向けに作成した。
– このレキシコンは、モデルのトレーニングと解釈を支援するためのものであり、モデルの予測を解釈するために使用できることを示した。
– また、低リソース環境でのトレーニングのショット選択を支援する方法を提案した。ショット選択はモデルのパフォーマンスに重要な役割を果たすため、社会文化的な情報を含むショットを選択することで、モデルの性能を向上させることができることを示した。
– ドイツ語とヒンディー語を対象としたfew-shot学習のシミュレーションを行い、HATELEXICONを使用したショット選択がランダムにサンプリングされたショットよりも性能が良いことを示した。
– つまり、少数のトレーニング例しか与えられていない場合でも、より社会文化的な情報を含むショットを選択することで、良いfew-shot学習の性能を得ることができる。


We introduce HATELEXICON, a lexicon of slurs and targets of hate speech for the countries of Brazil, Germany, India and Kenya, to aid training and interpretability of models. We demonstrate how our lexicon can be used to interpret model predictions, showing that models developed to classify extreme speech rely heavily on target words when making predictions. Further, we propose a method to aid shot selection for training in low-resource settings via HATELEXICON. In few-shot learning, the selection of shots is of paramount importance to model performance. In our work, we simulate a few-shot setting for German and Hindi, using HASOC data for training and the Multilingual HateCheck (MHC) as a benchmark. We show that selecting shots based on our lexicon leads to models performing better on MHC than models trained on shots sampled randomly. Thus, when given only a few training examples, using our lexicon to select shots containing more sociocultural information leads to better few-shot performance.


著者 Antonis Maronikolakis,Abdullatif Köksal,Hinrich Schütze
発行日 2023-04-11 19:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク