MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling

要約

強い一貫性を持つ大規模な感情的な音声データを取得することは、音声統合の課題のままです。
このペーパーでは、非標識ビデオデータから高整合性の感情的なスピーチを抽出するための完全に自動化されたマルチモーダルパイプラインであるMiku-Palを紹介します。
顔の検出と追跡アルゴリズムを活用して、マルチモーダル大手言語モデル(MLLM)を使用して自動感情分析システムを開発しました。
私たちの結果は、Miku-Palが人間の注釈よりもはるかに安価で速い一方で、Miku-Palが人間レベルの精度(MELDで68.5%)と優れた一貫性(0.93 Fleiss Kappaスコア)を達成できることを示しています。
Miku-Palからの高品質で柔軟な、一貫した注釈により、83%の合理性評価を持つヒトのアノテーターによって検証された最大26種類のきめの細かい音声感情カテゴリに注釈ができます。
提案されたシステムに基づいて、感情的なテキストと視覚音声クローニングの新しいベンチマークとして、細かい粒度の感情的な音声データセットMiku-Emobench(131.2時間)をリリースしました。

要約(オリジナル)

Acquiring large-scale emotional speech data with strong consistency remains a challenge for speech synthesis. This paper presents MIKU-PAL, a fully automated multimodal pipeline for extracting high-consistency emotional speech from unlabeled video data. Leveraging face detection and tracking algorithms, we developed an automatic emotion analysis system using a multimodal large language model (MLLM). Our results demonstrate that MIKU-PAL can achieve human-level accuracy (68.5% on MELD) and superior consistency (0.93 Fleiss kappa score) while being much cheaper and faster than human annotation. With the high-quality, flexible, and consistent annotation from MIKU-PAL, we can annotate fine-grained speech emotion categories of up to 26 types, validated by human annotators with 83% rationality ratings. Based on our proposed system, we further released a fine-grained emotional speech dataset MIKU-EmoBench(131.2 hours) as a new benchmark for emotional text-to-speech and visual voice cloning.

arxiv情報

著者 Cheng Yifan,Zhang Ruoyi,Shi Jiatong
発行日 2025-05-21 17:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク