ToxicTone: A Mandarin Audio Dataset Annotated for Toxicity and Toxic Utterance Tonality

要約

テキストでの有毒な音声検出に関する広範な研究にもかかわらず、音声のマンダリンオーディオの処理には重大なギャップが残っています。
マンダリンのユニークな韻律的キューと文化的に特定の表現をキャプチャする注釈付きのデータセットの欠如は、発言されていない毒性を除外しません。
これに対処するために、毒性の両方の形態(冒とく、いじめ、いじめ)と毒性の原因(たとえば、怒り、皮肉、解雇)を区別する詳細な注釈を特徴とするToxictone(この種の最大の公共データセット)を紹介します。
多様な現実世界のオーディオから供給され、13のトピックカテゴリに整理されたデータは、本物のコミュニケーションシナリオを反映しています。
また、最先端のスピーチと感情エンコーダーを使用して、音響、言語、および感情的な特徴を統合するマルチモーダル検出フレームワークを提案します。
広範な実験は、私たちのアプローチがテキストのみのモデルとベースラインモデルよりも優れていることを示しており、隠された毒性表現を明らかにする際の音声固有の手がかりの本質的な役割を強調しています。

要約(オリジナル)

Despite extensive research on toxic speech detection in text, a critical gap remains in handling spoken Mandarin audio. The lack of annotated datasets that capture the unique prosodic cues and culturally specific expressions in Mandarin leaves spoken toxicity underexplored. To address this, we introduce ToxicTone — the largest public dataset of its kind — featuring detailed annotations that distinguish both forms of toxicity (e.g., profanity, bullying) and sources of toxicity (e.g., anger, sarcasm, dismissiveness). Our data, sourced from diverse real-world audio and organized into 13 topical categories, mirrors authentic communication scenarios. We also propose a multimodal detection framework that integrates acoustic, linguistic, and emotional features using state-of-the-art speech and emotion encoders. Extensive experiments show our approach outperforms text-only and baseline models, underscoring the essential role of speech-specific cues in revealing hidden toxic expressions.

arxiv情報

著者 Yu-Xiang Luo,Yi-Cheng Lin,Ming-To Chuang,Jia-Hung Chen,I-Ning Tsai,Pei Xing Kiew,Yueh-Hsuan Huang,Chien-Feng Liu,Yu-Chen Chen,Bo-Han Feng,Wenze Ren,Hung-yi Lee
発行日 2025-05-21 17:25:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク