MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector

要約

音声モダリティ(音声ベース)の自然言語処理における毒性検出の研究は、特に英語以外の言語では非常に限られています。
これらの制限に対処し、真の多言語音声ベースの毒性検出の基礎を築くために、毒性ラベルを備えた初の高度に多言語音声ベースのデータセットである MuTox を導入します。
このデータセットは、英語とスペイン語については 20,000 の音声発話、他の 19 言語については 4,000 の音声発話で構成されています。
このデータセットの品質を実証するために、広範囲の言語にわたるゼロショット毒性検出を可能にする MuTox 音声ベースの毒性分類器をトレーニングしました。
この分類子は、既存のテキストベースのトレーニング可能な分類子よりも AUC が 1% 以上優れており、言語範囲を 10 倍以上拡大します。
同数の言語をカバーする単語リストベースの分類器と比較すると、MuTox は精度と再現率を約 2.5 倍向上させます。
この大幅な改善は、音声ベースの毒性検出の分野を前進させる MuTox の可能性を強調しています。

要約(オリジナル)

Research in toxicity detection in natural language processing for the speech modality (audio-based) is quite limited, particularly for languages other than English. To address these limitations and lay the groundwork for truly multilingual audio-based toxicity detection, we introduce MuTox, the first highly multilingual audio-based dataset with toxicity labels. The dataset comprises 20,000 audio utterances for English and Spanish, and 4,000 for the other 19 languages. To demonstrate the quality of this dataset, we trained the MuTox audio-based toxicity classifier, which enables zero-shot toxicity detection across a wide range of languages. This classifier outperforms existing text-based trainable classifiers by more than 1% AUC, while expanding the language coverage more than tenfold. When compared to a wordlist-based classifier that covers a similar number of languages, MuTox improves precision and recall by approximately 2.5 times. This significant improvement underscores the potential of MuTox in advancing the field of audio-based toxicity detection.

arxiv情報

著者 Marta R. Costa-jussà,Mariano Coria Meglioli,Pierre Andrews,David Dale,Prangthip Hansanti,Elahe Kalbassi,Alex Mourachko,Christophe Ropers,Carleigh Wood
発行日 2024-06-27 16:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 パーマリンク