Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling

要約

大規模な言語モデル(LLM)は、共感的な反応を生み出し、治療的会話をシミュレートできるメンタルヘルスサポートの重要な可能性を秘めています。
しかし、既存のLLMベースのアプローチには、特にDSM/ICDなどの基準に合わせて明示的な診断推論において、実世界の心理的カウンセリングに必要な臨床的根拠がないことがよくあります。
これらの重要な制限に対処するために、メンタルヘルスカウンセリングの診断と治療の推論の両方を体系的に統合するように設計された最初の大規模な言語モデルであるPsyllmを提案します。
Psyllmを開発するために、新しい自動化されたデータ合成パイプラインを提案します。
このパイプラインは、現実世界のメンタルヘルスの投稿を処理し、マルチターンダイアログ構造を生成し、国際診断基準(DSM/ICDなど)と複数の治療用フレームワーク(CBT、ACT、精神力学など)に導かれたLLMをレバレッジして、詳細な臨床推論プロセスをシミュレートします。
厳密な多次元フィルタリングにより、高品質の臨床的に整合したダイアログデータの生成が保証されます。
さらに、新しいベンチマークと評価プロトコルを紹介し、4つの重要な側面にわたってカウンセリングの品質を評価します。
私たちの実験は、Psyllmがこのベンチマークで最新のベースラインモデルを大幅に上回ることを示しています。

要約(オリジナル)

Large language models (LLMs) hold significant potential for mental health support, capable of generating empathetic responses and simulating therapeutic conversations. However, existing LLM-based approaches often lack the clinical grounding necessary for real-world psychological counseling, particularly in explicit diagnostic reasoning aligned with standards like the DSM/ICD and incorporating diverse therapeutic modalities beyond basic empathy or single strategies. To address these critical limitations, we propose PsyLLM, the first large language model designed to systematically integrate both diagnostic and therapeutic reasoning for mental health counseling. To develop the PsyLLM, we propose a novel automated data synthesis pipeline. This pipeline processes real-world mental health posts, generates multi-turn dialogue structures, and leverages LLMs guided by international diagnostic standards (e.g., DSM/ICD) and multiple therapeutic frameworks (e.g., CBT, ACT, psychodynamic) to simulate detailed clinical reasoning processes. Rigorous multi-dimensional filtering ensures the generation of high-quality, clinically aligned dialogue data. In addition, we introduce a new benchmark and evaluation protocol, assessing counseling quality across four key dimensions: comprehensiveness, professionalism, authenticity, and safety. Our experiments demonstrate that PsyLLM significantly outperforms state-of-the-art baseline models on this benchmark.

arxiv情報

著者 He Hu,Yucheng Zhou,Juzheng Si,Qianning Wang,Hengheng Zhang,Fuji Ren,Fei Ma,Laizhong Cui
発行日 2025-05-21 16:24:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling はコメントを受け付けていません

VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models

要約

大規模な言語モデル(LLMS)の急速な進歩により、ボーカルコミュニケーションが可能なマルチモーダルモデルの開発が加速されました。
テキストベースの相互作用とは異なり、スピーチは、セマンティックコンテンツ、音響のバリエーション、パラナングラングのキュー、環境コンテキストなど、豊かで多様な情報を伝えます。
ただし、音声相互作用モデルの既存の評価は、主にテキスト応答の品質に焦点を当てており、多くの場合、ボーカルパフォーマンスの重要な側面を見落とし、ボーカル固有のテストインスタンスでベンチマークを欠いています。
このギャップに対処するために、ボーカルコミュニケーションにおける音声相互作用モデルの機能を評価するために設計された包括的なベンチマークであるVocalbenchを提案します。
Vocalbenchは、セマンティック品質、音響性能、会話能力、堅牢性の4つの重要な次元にわたって9,400の慎重にキュレーションされたインスタンスで構成されています。
効果的なボーカル相互作用に不可欠な16の基本的なスキルをカバーしています。
実験結果は、現在のモデル能力の大幅な変動性を明らかにしており、それぞれが明確な長所と短所を示し、音声ベースの相互作用システムの将来の研究を導く貴重な洞察を提供します。
コードおよび評価インスタンスは、https://github.com/sjtu-omniagent/vocalbenchで入手できます。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has accelerated the development of multi-modal models capable of vocal communication. Unlike text-based interactions, speech conveys rich and diverse information, including semantic content, acoustic variations, paralanguage cues, and environmental context. However, existing evaluations of speech interaction models predominantly focus on the quality of their textual responses, often overlooking critical aspects of vocal performance and lacking benchmarks with vocal-specific test instances. To address this gap, we propose VocalBench, a comprehensive benchmark designed to evaluate speech interaction models’ capabilities in vocal communication. VocalBench comprises 9,400 carefully curated instances across four key dimensions: semantic quality, acoustic performance, conversational abilities, and robustness. It covers 16 fundamental skills essential for effective vocal interaction. Experimental results reveal significant variability in current model capabilities, each exhibiting distinct strengths and weaknesses, and provide valuable insights to guide future research in speech-based interaction systems. Code and evaluation instances are available at https://github.com/SJTU-OmniAgent/VocalBench.

arxiv情報

著者 Heyang Liu,Yuhao Wang,Ziyang Cheng,Ronghua Wu,Qunshan Gu,Yanfeng Wang,Yu Wang
発行日 2025-05-21 16:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models はコメントを受け付けていません

Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models

要約

大規模な言語モデル(LLMS)でのジェイルブレイクは、LLMを欺いて有害なテキストを生成できるため、主要なセキュリティ上の懸念事項です。
しかし、刑務所がどのように機能するかについての理解はまだ不十分であるため、効果的な防衛戦略の開発が困難です。
この問題により多くの光を当てることを目指しています。7つの異なる脱獄方法の詳細な大規模な分析を実施し、これらの意見の不十分な観測サンプルに由来することがわかります。
特に、\ textit {安全境界}を導入します。脱獄は、LLMが有害な情報に敏感ではない安全境界の外に有害なアクティベーションをシフトすることがわかります。
また、このようなシフトでは低層と中間層が重要である一方で、より深い層は影響が少ないことがわかります。
これらの洞察を活用して、\ textBf {activation boundary Defense}(ABD)と呼ばれる新しい防御を提案します。これは、安全境界内のアクティベーションを適応的に制約します。
さらに、ベイジアンの最適化を使用して、防御方法を低層と中層に選択的に適用します。
いくつかのベンチマークでの実験は、ABDがさまざまな形態の脱獄攻撃に対して98%を超える平均DSRを達成し、モデルの一般的な能力に2 \%未満の影響を与えていることを示しています。

要約(オリジナル)

Jailbreaking in Large Language Models (LLMs) is a major security concern as it can deceive LLMs to generate harmful text. Yet, there is still insufficient understanding of how jailbreaking works, which makes it hard to develop effective defense strategies. We aim to shed more light into this issue: we conduct a detailed large-scale analysis of seven different jailbreak methods and find that these disagreements stem from insufficient observation samples. In particular, we introduce \textit{safety boundary}, and we find that jailbreaks shift harmful activations outside that safety boundary, where LLMs are less sensitive to harmful information. We also find that the low and the middle layers are critical in such shifts, while deeper layers have less impact. Leveraging on these insights, we propose a novel defense called \textbf{Activation Boundary Defense} (ABD), which adaptively constrains the activations within the safety boundary. We further use Bayesian optimization to selectively apply the defense method to the low and the middle layers. Our experiments on several benchmarks show that ABD achieves an average DSR of over 98\% against various forms of jailbreak attacks, with less than 2\% impact on the model’s general capabilities.

arxiv情報

著者 Lang Gao,Jiahui Geng,Xiangliang Zhang,Preslav Nakov,Xiuying Chen
発行日 2025-05-21 16:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models はコメントを受け付けていません

Evolutionary Computation and Large Language Models: A Survey of Methods, Synergies, and Applications

要約

大規模な言語モデル(LLM)と進化的計算(EC)を統合することは、強力な自然言語の理解と最適化と検索機能を組み合わせることにより、人工知能を進めるための有望な手段を表しています。
この原稿は、LLMSとECの相乗的可能性を調査し、交差点、補完的な強さ、および新たなアプリケーションをレビューします。
ECがLLMトレーニング、微調整、迅速なエンジニアリング、およびアーキテクチャ検索を強化できる重要な機会を特定し、LLMはECの設計、分析、解釈の自動化に役立ちます。
原稿は、ECとLLMSの相乗的な統合を調査し、人工知能の進歩に対する彼らの双方向の貢献を強調しています。
まず、EC技術が、プロンプトエンジニアリング、ハイパーパラメーターチューニング、アーキテクチャ検索などの主要なコンポーネントを最適化することにより、LLMSを強化する方法を調べ、これらのプロセスを進化的方法を自動化および改良する方法を示します。
第二に、調査では、メタヒューリスティックな設計を自動化し、進化的アルゴリズムを調整し、適応ヒューリスティックを生成することにより、LLMSがどのようにECを改善するかを調査し、それにより効率とスケーラビリティが向上します。
新たな共進化的フレームワークについて説明し、計算コスト、解釈可能性、アルゴリズムの収束などの課題を認めながら、多様な分野でアプリケーションを紹介します。
この調査は、オープンな研究の質問を特定し、ECとLLMSの強みを組み合わせたハイブリッドアプローチを提唱することで締めくくります。

要約(オリジナル)

Integrating Large Language Models (LLMs) and Evolutionary Computation (EC) represents a promising avenue for advancing artificial intelligence by combining powerful natural language understanding with optimization and search capabilities. This manuscript explores the synergistic potential of LLMs and EC, reviewing their intersections, complementary strengths, and emerging applications. We identify key opportunities where EC can enhance LLM training, fine-tuning, prompt engineering, and architecture search, while LLMs can, in turn, aid in automating the design, analysis, and interpretation of ECs. The manuscript explores the synergistic integration of EC and LLMs, highlighting their bidirectional contributions to advancing artificial intelligence. It first examines how EC techniques enhance LLMs by optimizing key components such as prompt engineering, hyperparameter tuning, and architecture search, demonstrating how evolutionary methods automate and refine these processes. Secondly, the survey investigates how LLMs improve EC by automating metaheuristic design, tuning evolutionary algorithms, and generating adaptive heuristics, thereby increasing efficiency and scalability. Emerging co-evolutionary frameworks are discussed, showcasing applications across diverse fields while acknowledging challenges like computational costs, interpretability, and algorithmic convergence. The survey concludes by identifying open research questions and advocating for hybrid approaches that combine the strengths of EC and LLMs.

arxiv情報

著者 Dikshit Chauhan,Bapi Dutta,Indu Bala,Niki van Stein,Thomas Bäck,Anupam Yadav
発行日 2025-05-21 16:48:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MA, cs.NE, I.2.11 | Evolutionary Computation and Large Language Models: A Survey of Methods, Synergies, and Applications はコメントを受け付けていません

Enhancing Large Language Models (LLMs) for Telecommunications using Knowledge Graphs and Retrieval-Augmented Generation

要約

大規模な言語モデル(LLM)は、汎用の自然言語処理タスクで大きな進歩を遂げています。
ただし、LLMは、電気通信のようなドメイン固有の領域に適用されると、依然として課題に直面しています。
このペーパーでは、テレコムドメインでのLLMパフォーマンスを強化するために、知識グラフ(kg)と検索の高等生成(RAG)技術を組み合わせた新しいフレームワークを紹介します。
フレームワークはKGを活用して、ネットワークプロトコル、標準、およびその他の通信関連エンティティに関する構造化されたドメイン固有の情報をキャプチャし、その関係を包括的に表現しています。
KGをRAGと統合することにより、LLMSは応答生成中に最も関連性の高い最新の知識に動的にアクセスして利用できます。
このハイブリッドアプローチは、構造化された知識表現とLLMの生成能力との間のギャップを橋渡しし、精度、適応性、およびドメイン固有の理解を大幅に向上させます。
私たちの結果は、複雑な技術的クエリに正確に対処する際のKG-RAGフレームワークの有効性を示しています。
提案されているKG-RAGモデルは、頻繁に使用される通信テレコム固有のデータセットのタスクに回答する質問に対して88%の精度を達成しましたが、LAGのみで82%、LLMのみのアプローチでは48%でした。

要約(オリジナル)

Large language models (LLMs) have made significant progress in general-purpose natural language processing tasks. However, LLMs are still facing challenges when applied to domain-specific areas like telecommunications, which demands specialized expertise and adaptability to evolving standards. This paper presents a novel framework that combines knowledge graph (KG) and retrieval-augmented generation (RAG) techniques to enhance LLM performance in the telecom domain. The framework leverages a KG to capture structured, domain-specific information about network protocols, standards, and other telecom-related entities, comprehensively representing their relationships. By integrating KG with RAG, LLMs can dynamically access and utilize the most relevant and up-to-date knowledge during response generation. This hybrid approach bridges the gap between structured knowledge representation and the generative capabilities of LLMs, significantly enhancing accuracy, adaptability, and domain-specific comprehension. Our results demonstrate the effectiveness of the KG-RAG framework in addressing complex technical queries with precision. The proposed KG-RAG model attained an accuracy of 88% for question answering tasks on a frequently used telecom-specific dataset, compared to 82% for the RAG-only and 48% for the LLM-only approaches.

arxiv情報

著者 Dun Yuan,Hao Zhou,Di Wu,Xue Liu,Hao Chen,Yan Xin,Jianzhong,Zhang
発行日 2025-05-21 16:55:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing Large Language Models (LLMs) for Telecommunications using Knowledge Graphs and Retrieval-Augmented Generation はコメントを受け付けていません

Understanding the Repeat Curse in Large Language Models from a Feature Perspective

要約

大規模な言語モデル(LLM)はさまざまなドメインで顕著な進歩を遂げていますが、繰り返しのテキスト生成に苦しむことがよくあります。これは、「繰り返しの呪い」と呼ばれる現象です。
以前の研究では、繰り返しを緩和するための解読戦略を提案していますが、この問題の背後にある根本的なメカニズムは不十分に調査されています。
この作業では、機械的解釈可能性のレンズを介してLLMの繰り返しの根本原因を調査します。
単調な特徴抽出を可能にするスパースオートエンコーダー(SAE)の最近の進歩に触発され、繰り返しの呪いを誘導および分析するために、新しいアプローチ「Duplicatus Charm」を提案します。
私たちの方法は、「繰り返し機能」を体系的に識別します。これは、繰り返し出力を生成するための主要なモデルのアクティベーションです。
まず、ロジット分析を通じて繰り返しに最も関与するレイヤーを見つけます。
次に、SAEベースのアクティベーション操作を使用して、関連する機能を抽出および刺激します。
アプローチを検証するために、トークンとパラグラフレベルの繰り返しをカバーする繰り返しデータセットを構築し、特定された繰り返し機能の影響を定量化するための評価パイプラインを導入します。
さらに、これらの機能を非アクティブ化することにより、繰り返しの呪いを効果的に軽減しました。

要約(オリジナル)

Large language models (LLMs) have made remarkable progress in various domains, yet they often suffer from repetitive text generation, a phenomenon we refer to as the ‘Repeat Curse’. While previous studies have proposed decoding strategies to mitigate repetition, the underlying mechanism behind this issue remains insufficiently explored. In this work, we investigate the root causes of repetition in LLMs through the lens of mechanistic interpretability. Inspired by recent advances in Sparse Autoencoders (SAEs), which enable monosemantic feature extraction, we propose a novel approach, ‘Duplicatus Charm’, to induce and analyze the Repeat Curse. Our method systematically identifies ‘Repetition Features’ -the key model activations responsible for generating repetitive outputs. First, we locate the layers most involved in repetition through logit analysis. Next, we extract and stimulate relevant features using SAE-based activation manipulation. To validate our approach, we construct a repetition dataset covering token and paragraph level repetitions and introduce an evaluation pipeline to quantify the influence of identified repetition features. Furthermore, by deactivating these features, we have effectively mitigated the Repeat Curse.

arxiv情報

著者 Junchi Yao,Shu Yang,Jianhua Xu,Lijie Hu,Mengdi Li,Di Wang
発行日 2025-05-21 16:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Understanding the Repeat Curse in Large Language Models from a Feature Perspective はコメントを受け付けていません

Granary: Speech Recognition and Translation Dataset in 25 European Languages

要約

マルチタスクと多言語のアプローチは大規模なモデルに利益をもたらしますが、低リソース言語の音声処理は、データ不足のために露出不足のままです。
これに対処するために、25のヨーロッパ言語にわたる認識と翻訳のための音声データセットの大規模なコレクションであるGranaryを提示します。
これは、転写と翻訳の両方のためのこの規模での最初のオープンソースの取り組みです。
セグメンテーション、2つのパス推論、幻覚フィルタリング、および句読点の回復を伴う擬似ラベルパイプラインを使用して、データの品質を向上させます。
さらに、Eurollmを使用して擬似標識転写から翻訳ペアを生成し、その後にデータろ過パイプラインを使用します。
効率のために設計されたパイプラインは、数時間以内に膨大な量のデータを処理します。
高品質と低リソース言語の両方で、以前にキュレーションされたデータセットのパフォーマンスを比較することにより、処理されたデータでトレーニングされたモデルを評価します。
私たちの調査結果は、これらのモデルが約を使用して同様のパフォーマンスを達成することを示しています。
50%少ないデータ。
データセットはhttps://hf.co/datasets/nvidia/granaryで利用可能になります

要約(オリジナル)

Multi-task and multilingual approaches benefit large models, yet speech processing for low-resource languages remains underexplored due to data scarcity. To address this, we present Granary, a large-scale collection of speech datasets for recognition and translation across 25 European languages. This is the first open-source effort at this scale for both transcription and translation. We enhance data quality using a pseudo-labeling pipeline with segmentation, two-pass inference, hallucination filtering, and punctuation restoration. We further generate translation pairs from pseudo-labeled transcriptions using EuroLLM, followed by a data filtration pipeline. Designed for efficiency, our pipeline processes vast amount of data within hours. We assess models trained on processed data by comparing their performance on previously curated datasets for both high- and low-resource languages. Our findings show that these models achieve similar performance using approx. 50% less data. Dataset will be made available at https://hf.co/datasets/nvidia/Granary

arxiv情報

著者 Nithin Rao Koluguri,Monica Sekoyan,George Zelenfroynd,Sasha Meister,Shuoyang Ding,Sofia Kostandian,He Huang,Nikolay Karpov,Jagadeesh Balam,Vitaly Lavrukhin,Yifan Peng,Sara Papi,Marco Gaido,Alessio Brutti,Boris Ginsburg
発行日 2025-05-21 17:00:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Granary: Speech Recognition and Translation Dataset in 25 European Languages はコメントを受け付けていません

Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach

要約

サブグループの格差とパフォーマンスバイアスは計算研究でますます研究されていますが、カテゴリの音声感情認識(SER)の公平性は採用されていないままです。
既存の方法は、多くの場合、プライバシーの懸念のために取得するのが難しい明示的な人口統計ラベルに依存しています。
この制限に対処するために、Serのバイアスを緩和するためにK-Meansクラスタリングを使用して、事前に訓練されたモデルから擬似標識と監視されていない学習を活用する暗黙的な人口統計推論(IDI)モジュールを導入します。
我々の実験は、擬似標識IDIがサブグループの格差を減らし、Serの精度が3%未満で33%を超えて公平性メトリックを改善することを示しています。
また、監視されていないIDIは、SERパフォーマンスが4%未満の低下で、公平性メトリックの26%以上の改善をもたらします。
さらなる分析により、監視されていないIDIが人種と年齢の格差を一貫して緩和し、明示的な人口統計情報が利用できないシナリオでその可能性を示していることが明らかになりました。

要約(オリジナル)

While subgroup disparities and performance bias are increasingly studied in computational research, fairness in categorical Speech Emotion Recognition (SER) remains underexplored. Existing methods often rely on explicit demographic labels, which are difficult to obtain due to privacy concerns. To address this limitation, we introduce an Implicit Demography Inference (IDI) module that leverages pseudo-labeling from a pre-trained model and unsupervised learning using k-means clustering to mitigate bias in SER. Our experiments show that pseudo-labeling IDI reduces subgroup disparities, improving fairness metrics by over 33% with less than a 3% decrease in SER accuracy. Also, the unsupervised IDI yields more than a 26% improvement in fairness metrics with a drop of less than 4% in SER performance. Further analyses reveal that the unsupervised IDI consistently mitigates race and age disparities, demonstrating its potential in scenarios where explicit demographic information is unavailable.

arxiv情報

著者 Yi-Cheng Lin,Huang-Cheng Chou,Hung-yi Lee
発行日 2025-05-21 17:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach はコメントを受け付けていません

Transfer of Structural Knowledge from Synthetic Languages

要約

この作品では、いくつかの合成言語から英語への転送学習を探ります。
微調整されたモデルの埋め込みの構造、含まれる情報、および単純な言語タスク上の微調整されたモデルの機能を調査します。
また、以前の研究で使用されていた言語よりも英語への移転につながる新しい合成言語も紹介します。
最後に、Tiny -Clozeベンチマークを紹介します。これは、強力ではないモデルにとってより有益な自然言語理解のための新しい合成ベンチマークです。
Tiny-Clozeベンチマークを使用して、いくつかのドメインで微調整されたモデルを評価し、新しい合成言語で微調整することで、さまざまなタスクでパフォーマンスを向上させることができます。

要約(オリジナル)

This work explores transfer learning from several synthetic languages to English. We investigate the structure of the embeddings in the fine-tuned models, the information they contain, and the capabilities of the fine-tuned models on simple linguistic tasks. We also introduce a new synthetic language that leads to better transfer to English than the languages used in previous research. Finally, we introduce Tiny-Cloze Benchmark – a new synthetic benchmark for natural language understanding that is more informative for less powerful models. We use Tiny-Cloze Benchmark to evaluate fine-tuned models in several domains demonstrating that fine-tuning on a new synthetic language allows for better performance on a variety of tasks.

arxiv情報

著者 Mikhail Budnikov,Ivan Yamshchikov
発行日 2025-05-21 17:18:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Transfer of Structural Knowledge from Synthetic Languages はコメントを受け付けていません

MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling

要約

強い一貫性を持つ大規模な感情的な音声データを取得することは、音声統合の課題のままです。
このペーパーでは、非標識ビデオデータから高整合性の感情的なスピーチを抽出するための完全に自動化されたマルチモーダルパイプラインであるMiku-Palを紹介します。
顔の検出と追跡アルゴリズムを活用して、マルチモーダル大手言語モデル(MLLM)を使用して自動感情分析システムを開発しました。
私たちの結果は、Miku-Palが人間の注釈よりもはるかに安価で速い一方で、Miku-Palが人間レベルの精度(MELDで68.5%)と優れた一貫性(0.93 Fleiss Kappaスコア)を達成できることを示しています。
Miku-Palからの高品質で柔軟な、一貫した注釈により、83%の合理性評価を持つヒトのアノテーターによって検証された最大26種類のきめの細かい音声感情カテゴリに注釈ができます。
提案されたシステムに基づいて、感情的なテキストと視覚音声クローニングの新しいベンチマークとして、細かい粒度の感情的な音声データセットMiku-Emobench(131.2時間)をリリースしました。

要約(オリジナル)

Acquiring large-scale emotional speech data with strong consistency remains a challenge for speech synthesis. This paper presents MIKU-PAL, a fully automated multimodal pipeline for extracting high-consistency emotional speech from unlabeled video data. Leveraging face detection and tracking algorithms, we developed an automatic emotion analysis system using a multimodal large language model (MLLM). Our results demonstrate that MIKU-PAL can achieve human-level accuracy (68.5% on MELD) and superior consistency (0.93 Fleiss kappa score) while being much cheaper and faster than human annotation. With the high-quality, flexible, and consistent annotation from MIKU-PAL, we can annotate fine-grained speech emotion categories of up to 26 types, validated by human annotators with 83% rationality ratings. Based on our proposed system, we further released a fine-grained emotional speech dataset MIKU-EmoBench(131.2 hours) as a new benchmark for emotional text-to-speech and visual voice cloning.

arxiv情報

著者 Cheng Yifan,Zhang Ruoyi,Shi Jiatong
発行日 2025-05-21 17:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling はコメントを受け付けていません