要約
テキスト毒性検出システムは、人口統計グループに言及しているサンプルに不均衡な誤陽性の不均衡な速度を生成し、重要なバイアスを示します。
しかし、音声での毒性検出はどうですか?
テキストベースのバイアスが音声ベースのシステムによって緩和される程度を調査するために、多言語Mutoxデータセットの高品質のグループアノテーションのセットを作成し、これらの注釈を活用して、音声ベースとテキストベースの毒性分類器を体系的に比較します。
我々の調査結果は、推論中の音声データへのアクセスは、特に曖昧で意見の相違誘導サンプルについて、グループの言及に対するバイアスの減少をサポートすることを示しています。
また、我々の結果は、転写パイプラインではなく、分類器を改善することが、グループバイアスを減らすのに役立つことを示唆しています。
注釈を公開し、将来の毒性データセット構築に関する推奨事項を提供します。
要約(オリジナル)
Text toxicity detection systems exhibit significant biases, producing disproportionate rates of false positives on samples mentioning demographic groups. But what about toxicity detection in speech? To investigate the extent to which text-based biases are mitigated by speech-based systems, we produce a set of high-quality group annotations for the multilingual MuTox dataset, and then leverage these annotations to systematically compare speech- and text-based toxicity classifiers. Our findings indicate that access to speech data during inference supports reduced bias against group mentions, particularly for ambiguous and disagreement-inducing samples. Our results also suggest that improving classifiers, rather than transcription pipelines, is more helpful for reducing group bias. We publicly release our annotations and provide recommendations for future toxicity dataset construction.
arxiv情報
著者 | Samuel J. Bell,Mariano Coria Meglioli,Megan Richards,Eduardo Sánchez,Christophe Ropers,Skyler Wang,Adina Williams,Levent Sagun,Marta R. Costa-jussà |
発行日 | 2025-05-16 15:45:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google