Improving Retrieval-Augmented Neural Machine Translation with Monolingual Data

要約

従来の検索された高級神経機械翻訳(RANMT)システムは、バイリンガルコーパスを活用しています。たとえば、翻訳記憶(TMS)。
しかし、多くの設定では、ドメイン内の単一言語のターゲットサイドコーパが利用できることがよくあります。
この作業では、ソースサイドクエリに基づいて、ターゲット言語で関連するセグメントを直接取得することにより、このようなリソースを活用する方法を探ります。
このために、私たちは、文レベルとワードレベルのマッチング目標の両方で訓練された、間向上した横断的検索システムを設計します。
2つのRANMTアーキテクチャを使用した実験では、最初に制御された設定でそのような横断的な目的の利点を示し、標準のTMベースのモデルを上回る翻訳パフォーマンスを取得します。
次に、ターゲットの単一言語リソースが並列データの量をはるかに超え、ベースライン設定と汎用クロスリンガルレトリバーの両方を上回る新しいテクニックの大規模な改善を観察する現実世界のセットアップでメソッドを紹介します。

要約(オリジナル)

Conventional retrieval-augmented neural machine translation (RANMT) systems leverage bilingual corpora, e.g., translation memories (TMs). Yet, in many settings, in-domain monolingual target-side corpora are often available. This work explores ways to take advantage of such resources by retrieving relevant segments directly in the target language, based on a source-side query. For this, we design improved cross-lingual retrieval systems, trained with both sentence level and word-level matching objectives. In our experiments with two RANMT architectures, we first demonstrate the benefits of such cross-lingual objectives in a controlled setting, obtaining translation performances that surpass standard TM-based models. We then showcase our method on a real-world set-up, where the target monolingual resources far exceed the amount of parallel data and observe large improvements of our new techniques, which outperform both the baseline setting, and general-purpose cross-lingual retrievers.

arxiv情報

著者 Maxime Bouthors,Josep Crego,François Yvon
発行日 2025-04-30 15:41:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Improving Retrieval-Augmented Neural Machine Translation with Monolingual Data はコメントを受け付けていません

CodeFlowBench: A Multi-turn, Iterative Benchmark for Complex Code Generation

要約

Real World Developmentは、実装をモジュラーコンポーネントに整理し、事前に実装されたコードを繰り返し再利用することにより、読みやすく、拡張可能で、テスト可能なコードを要求します。
この反復的なマルチターンプロセスコードフローと呼び、CodeFlowBenchを導入します。これは、CodeFlowを実行するLLMSの能力を包括的に評価するために設計された最初のベンチマークです。
CodeFlowbenchは、コードフォースから描かれた5258の問題で構成され、各問題をその依存関係ツリーに基づいて一連の関数レベルのサブ問題に分解する自動化されたパイプラインを介して継続的に更新され、各サブ問題は単位テストとペアになります。
さらに、モデルのパフォーマンスを評価するためにマルチターンコードの再利用に合わせたタスクとメトリックを使用した新しい評価フレームワークを提案します。
マルチターンパターンとシングルターンパターンの両方で、さまざまなLLMの実験で。
コードフローベンチでのモデルのパフォーマンスが低いことを観察し、反復的なコードフローシナリオで大幅にパフォーマンスが低下します。
たとえば、O1-MINIは、マルチターンパターンで20.8%のパス@1を達成し、シングルターンパターンでは37.8%です。
さらなる分析により、異なるモデルは異なる依存関係の深さで優れているが、すべてが構造的に複雑な問題を正しく解決するのに苦労しており、現在のLLMがコードフローを実行する際にコード生成ツールとして機能するという課題を強調することを示しています。
全体として、CodeFlowBenchは、マルチターン、反復コード生成のLLM機能に関する包括的なベンチマークと新しい洞察を提供し、コード生成タスクの将来の進歩を導きます。

要約(オリジナル)

Real world development demands code that is readable, extensible, and testable by organizing the implementation into modular components and iteratively reuse pre-implemented code. We term this iterative, multi-turn process codeflow and introduce CodeFlowBench, the first benchmark designed for comprehensively evaluating LLMs’ ability to perform codeflow, namely to implement new functionality by reusing existing functions over multiple turns. CodeFlowBench comprises 5258 problems drawn from Codeforces and is continuously updated via an automated pipeline that decomposes each problem into a series of function-level subproblems based on its dependency tree and each subproblem is paired with unit tests. We further propose a novel evaluation framework with tasks and metrics tailored to multi-turn code reuse to assess model performance. In experiments across various LLMs under both multi-turn and single-turn patterns. We observe models’ poor performance on CodeFlowBench, with a substantial performance drop in the iterative codeflow scenario. For instance, o1-mini achieves a pass@1 of 20.8% in multi-turn pattern versus 37.8% in single-turn pattern. Further analysis shows that different models excel at different dependency depths, yet all struggle to correctly solve structurally complex problems, highlighting challenges for current LLMs to serve as code generation tools when performing codeflow. Overall, CodeFlowBench offers a comprehensive benchmark and new insights into LLM capabilities for multi-turn, iterative code generation, guiding future advances in code generation tasks.

arxiv情報

著者 Sizhe Wang,Zhengren Wang,Dongsheng Ma,Yongan Yu,Rui Ling,Zhiyu Li,Feiyu Xiong,Wentao Zhang
発行日 2025-04-30 15:45:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | CodeFlowBench: A Multi-turn, Iterative Benchmark for Complex Code Generation はコメントを受け付けていません

Emergence of a High-Dimensional Abstraction Phase in Language Transformers

要約

言語モデル(LM)は、言語のコンテキストから出力トークンへのマッピングです。
ただし、この幾何学的特性がその機能にどのように関連するかを含め、このマッピングについては多くのことがわかっています。
5つの事前に訓練されたトランスベースのLMSと3つの入力データセットにわたって、その分析に対する高レベルの幾何学的アプローチを採用します。
この段階では、表現(1)は、入力の最初の完全な言語抽象化に対応しています。
(2)下流タスクに最初に転送する最初のタスク。
(3)異なるLMSで相互に予測します。
さらに、フェーズの以前の開始は、より良い言語モデリングのパフォーマンスを強く予測することがわかります。
要するに、我々の結果は、中心的な高次元性フェーズが、多くの一般的なLMアーキテクチャにおけるコア言語処理の根底にあることを示唆しています。

要約(オリジナル)

A language model (LM) is a mapping from a linguistic context to an output token. However, much remains to be known about this mapping, including how its geometric properties relate to its function. We take a high-level geometric approach to its analysis, observing, across five pre-trained transformer-based LMs and three input datasets, a distinct phase characterized by high intrinsic dimensionality. During this phase, representations (1) correspond to the first full linguistic abstraction of the input; (2) are the first to viably transfer to downstream tasks; (3) predict each other across different LMs. Moreover, we find that an earlier onset of the phase strongly predicts better language modelling performance. In short, our results suggest that a central high-dimensionality phase underlies core linguistic processing in many common LM architectures.

arxiv情報

著者 Emily Cheng,Diego Doimo,Corentin Kervadec,Iuri Macocco,Jade Yu,Alessandro Laio,Marco Baroni
発行日 2025-04-30 16:06:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Emergence of a High-Dimensional Abstraction Phase in Language Transformers はコメントを受け付けていません

SparseTransX: Efficient Training of Translation-Based Knowledge Graph Embeddings Using Sparse Matrix Operations

要約

ナレッジグラフ(KG)学習は、新しい知識を生成し、推論を行うための強力なフレームワークを提供します。
KG埋め込みのトレーニングには、特により大きなデータセットでは、かなり長い時間がかかる場合があります。
私たちの分析は、埋め込みの勾配計算が翻訳ベースのKG埋め込みトレーニングループの支配的な機能の1つであることを示しています。
コア埋め込み計算をSPMM(スパース密度のマトリックス増殖)カーネルに置き換えることにより、この問題に対処します。
これにより、複数の散布(および収集)操作を単一の操作として統合し、トレーニング時間とメモリの使用量を削減できます。
スパースカーネルを使用してKGモデルをトレーニングするための一般的なフレームワークを作成し、4つのモデル、つまりTranse、TransR、Transh、およびToruseを実装します。
当社のスパースの実装は、CPUで最大5.3倍のスピードアップ、GPUで最大4.2倍のスピードアップを示し、GPUメモリフットプリントが大幅に低くなります。
特定のモデルの大小のデータセットでスピードアップは一貫しています。
提案されたスパースアプローチは、他の翻訳ベース(transc、transmなど)および非翻訳(Distmult、複雑、回転など)モデルを加速するように拡張できます。
sptransxフレームワークの実装は、https://github.com/hipgraph/sptransxでPythonパッケージとして公開されています。

要約(オリジナル)

Knowledge graph (KG) learning offers a powerful framework for generating new knowledge and making inferences. Training KG embedding can take a significantly long time, especially for larger datasets. Our analysis shows that the gradient computation of embedding is one of the dominant functions in the translation-based KG embedding training loop. We address this issue by replacing the core embedding computation with SpMM (Sparse-Dense Matrix Multiplication) kernels. This allows us to unify multiple scatter (and gather) operations as a single operation, reducing training time and memory usage. We create a general framework for training KG models using sparse kernels and implement four models, namely TransE, TransR, TransH, and TorusE. Our sparse implementations exhibit up to 5.3x speedup on the CPU and up to 4.2x speedup on the GPU with a significantly low GPU memory footprint. The speedups are consistent across large and small datasets for a given model. Our proposed sparse approach can be extended to accelerate other translation-based (such as TransC, TransM, etc.) and non-translational (such as DistMult, ComplEx, RotatE, etc.) models as well. An implementation of the SpTransX framework is publicly available as a Python package in https://github.com/HipGraph/SpTransX.

arxiv情報

著者 Md Saidul Hoque Anik,Ariful Azad
発行日 2025-04-30 16:35:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | SparseTransX: Efficient Training of Translation-Based Knowledge Graph Embeddings Using Sparse Matrix Operations はコメントを受け付けていません

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

要約

迅速なチューニングは、特にリソースに制約のあるシステムで、基礎モデルをダウンストリームタスクに適応させるための軽量適応戦略として浮上しています。
事前に訓練されたプロンプトが貴重な知的資産になっているため、複数のソースプロンプトを組み合わせることで、多様なソースからの補完的な知識を活用することにより、新しいタスクの一般化を強化するための有望なアプローチが提供されます。
しかし、これらのプロンプトの素朴な集約は、相互干渉のために表現崩壊につながり、それらの集合的な可能性を損なうことがよくあります。
これらの課題に対処するために、HGPROMPTを提案します。HGPROMPTは、導入可能性と安定性という二重の目標を共同で最適化することにより、最適なアンサンブル重量を学習するマルチソースプロンプト転送の適応フレームワークであるHGPROMPTを提案します。
具体的には、最初に情報理論メトリックを導入して、ターゲットタスク上の迅速な誘導機能の転送可能性を評価し、特徴表現間の固有のアライメントをキャプチャします。
さらに、干渉を抑制しながら、複数のソースからの安定したコヒーレントな知識移転を可能にし、プロンプト間の勾配競合を緩和するために、新しい勾配アライメントの正規化を提案します。
大規模なVTABベンチマークに関する広範な実験は、HGPROMPTが最先端のパフォーマンスを達成し、マルチソースプロンプト転送における有効性を検証することを示しています。

要約(オリジナル)

Prompt tuning has emerged as a lightweight adaptation strategy for adapting foundation models to downstream tasks, particularly in resource-constrained systems. As pre-trained prompts have become valuable intellectual assets, combining multiple source prompts offers a promising approach to enhance generalization to new tasks by leveraging complementary knowledge from diverse sources. However, naive aggregation of these prompts often leads to representation collapse due to mutual interference, undermining their collective potential. To address these challenges, we propose HGPrompt, an adaptive framework for multi-source prompt transfer that learns optimal ensemble weights by jointly optimizing dual objectives: transferability and stability. Specifically, we first introduce an information-theoretic metric to evaluate the transferability of prompt-induced features on the target task, capturing the intrinsic alignment between the feature representations. Additionally, we propose a novel Gradient Alignment Regularization to mitigate gradient conflicts among prompts, enabling stable and coherent knowledge transfer from multiple sources while suppressing interference. Extensive experiments on the large-scale VTAB benchmark demonstrate that HGPrompt achieves state-of-the-art performance, validating its effectiveness in multi-source prompt transfer.

arxiv情報

著者 Enming Zhang,Liwen Cao,Yanru Wu,Zijie Zhao,Guan Wang,Yang Li
発行日 2025-04-30 16:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer はコメントを受け付けていません

TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering

要約

検索された生成(RAG)システムは、複数のドキュメントチャンクで情報を合成する必要がある複雑なクエリが必要なマルチホップ質問応答(MHQA)の重要な課題に直面しています。
既存のアプローチは通常、反復的なLLMベースのクエリの書き換えとルーティングに依存しているため、LLMの呼び出しと多段階プロセスが繰り返されるため、計算コストが高くなります。
これらの制限に対処するために、クエリ改良でLLMSを必要とせずに、埋め込みレベルのフレームワークであるTreeHopを提案します。
Treehopは、以前のクエリからセマンティック情報を融合し、ドキュメントを取得したドキュメントからのセマンティック情報を融合し、埋め込みスペース操作のみを介して反復的な検索を可能にすることにより、クエリの埋め込みを動的に更新します。
この方法は、従来の「Retrive-Rewrite-Vectorize-Retrieve」サイクルを合理化された「Retraine-embed-Retrieve」ループに置き換え、計算オーバーヘッドを大幅に削減します。
さらに、ルールベースの停止基準が導入され、さらに冗長検索をさらに剪定し、効率のバランスを取り、リコール率が導入されます。
実験結果は、Treehopが3つのオープンドメインMHQAデータセットで高度なRAGメソッドに匹敵し、モデルパラメーターサイズの5 \%-0.4 \%で匹敵するパフォーマンスを達成し、クエリレイテンシを同時アプローチと比較して約99%減少させることを示しています。
これにより、ツリーホップは、さまざまな知識集約型アプリケーションで展開するためのより速く、より費用対効果の高いソリューションになります。
再現性のために、コードとデータはhttps://github.com/allen-li1231/treehop-ragで入手できます。

要約(オリジナル)

Retrieval-augmented generation (RAG) systems face significant challenges in multi-hop question answering (MHQA), where complex queries require synthesizing information across multiple document chunks. Existing approaches typically rely on iterative LLM-based query rewriting and routing, resulting in high computational costs due to repeated LLM invocations and multi-stage processes. To address these limitations, we propose TreeHop, an embedding-level framework without the need for LLMs in query refinement. TreeHop dynamically updates query embeddings by fusing semantic information from prior queries and retrieved documents, enabling iterative retrieval through embedding-space operations alone. This method replaces the traditional ‘Retrieve-Rewrite-Vectorize-Retrieve’ cycle with a streamlined ‘Retrieve-Embed-Retrieve’ loop, significantly reducing computational overhead. Moreover, a rule-based stop criterion is introduced to further prune redundant retrievals, balancing efficiency and recall rate. Experimental results show that TreeHop rivals advanced RAG methods across three open-domain MHQA datasets, achieving comparable performance with only 5\%-0.4\% of the model parameter size and reducing the query latency by approximately 99\% compared to concurrent approaches. This makes TreeHop a faster and more cost-effective solution for deployment in a range of knowledge-intensive applications. For reproducibility purposes, codes and data are available here: https://github.com/allen-li1231/TreeHop-RAG.

arxiv情報

著者 Zhonghao Li,Kunpeng Zhang,Jinghuai Ou,Shuliang Liu,Xuming Hu
発行日 2025-04-30 13:15:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.IR, cs.LG | TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering はコメントを受け付けていません

Cross-Lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models

要約

音声感情認識(SER)のための自己監視学習(SSL)モデルを利用して、効果的であるが、限られた研究は横断的なシナリオを調査していることが証明されています。
この研究では、人間のパフォーマンスとSSLモデルの比較分析を提示します。レイヤーごとの分析と、単一言語、横断的、および転送学習コンテキストにおけるパラメーター効率の高い微調整戦略の調査から始めます。
さらに、発話レベルとセグメントレベルの両方でモデルと人間のSER能力を比較します。
さらに、人間の評価を通じて言語間Serに与える方言の影響を調査します。
私たちの調査結果は、モデルが適切な知識転送を伴う、ターゲット言語に適応し、ネイティブスピーカーに匹敵するパフォーマンスを実現できることを明らかにしています。
また、以前の言語的および麻痺性背景を持たない個人のためのSERに対する方言の重要な効果を示します。
さらに、人間とモデルの両方が、さまざまな感情にわたって異なる行動を示します。
これらの結果は、SSLモデルの横断的なSER能力に関する新しい洞察を提供し、人間の感情知覚との類似性と違いの両方を強調しています。

要約(オリジナル)

Utilizing Self-Supervised Learning (SSL) models for Speech Emotion Recognition (SER) has proven effective, yet limited research has explored cross-lingual scenarios. This study presents a comparative analysis between human performance and SSL models, beginning with a layer-wise analysis and an exploration of parameter-efficient fine-tuning strategies in monolingual, cross-lingual, and transfer learning contexts. We further compare the SER ability of models and humans at both utterance- and segment-levels. Additionally, we investigate the impact of dialect on cross-lingual SER through human evaluation. Our findings reveal that models, with appropriate knowledge transfer, can adapt to the target language and achieve performance comparable to native speakers. We also demonstrate the significant effect of dialect on SER for individuals without prior linguistic and paralinguistic background. Moreover, both humans and models exhibit distinct behaviors across different emotions. These results offer new insights into the cross-lingual SER capabilities of SSL models, underscoring both their similarities to and differences from human emotion perception.

arxiv情報

著者 Zhichen Han,Tianqi Geng,Hui Feng,Jiahong Yuan,Korin Richmond,Yuanchao Li
発行日 2025-04-30 13:16:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.SD, eess.AS | Cross-Lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models はコメントを受け付けていません

Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling

要約

ラベル付けされたデータの欠如は、音声分類タスク、特に認知状態分類などの広範な主観的評価を必要とするタスクにおける一般的な課題です。
この作業では、半監視学習(SSL)フレームワークを提案し、音響特性と言語特性の両方を活用して、分類モデルをトレーニングするための最も自信のあるデータを選択する新しいマルチビュー擬似標識方法を導入します。
音響的には、複数のオーディオエンコーダーによって生成された埋め込みから計算されたフレチェットオーディオ距離を使用して、ラベル付きデータと比較されます。
言語的には、大規模な言語モデルは、自動音声認識の転写を修正し、提案されたタスク固有の知識に基づいてラベルを予測するように求められます。
両方のソースからの擬似ラベルが整列し、不一致は低自信データとして扱われる一方で、高自信データが特定されます。
次に、事前定義された基準が満たされるまで、低コンフィデンスデータに繰り返しラベルを付けるようにバイモーダル分類器がトレーニングされます。
感情認識と認知症検出タスクに関するSSLフレームワークを評価します。
実験結果は、ラベル付けされたデータの30%のみを使用して、完全に監視された学習と比較して、この方法が競争力のあるパフォーマンスを達成し、選択された2つのベースラインを大幅に上回ることを示しています。

要約(オリジナル)

The lack of labeled data is a common challenge in speech classification tasks, particularly those requiring extensive subjective assessment, such as cognitive state classification. In this work, we propose a Semi-Supervised Learning (SSL) framework, introducing a novel multi-view pseudo-labeling method that leverages both acoustic and linguistic characteristics to select the most confident data for training the classification model. Acoustically, unlabeled data are compared to labeled data using the Frechet audio distance, calculated from embeddings generated by multiple audio encoders. Linguistically, large language models are prompted to revise automatic speech recognition transcriptions and predict labels based on our proposed task-specific knowledge. High-confidence data are identified when pseudo-labels from both sources align, while mismatches are treated as low-confidence data. A bimodal classifier is then trained to iteratively label the low-confidence data until a predefined criterion is met. We evaluate our SSL framework on emotion recognition and dementia detection tasks. Experimental results demonstrate that our method achieves competitive performance compared to fully supervised learning using only 30% of the labeled data and significantly outperforms two selected baselines.

arxiv情報

著者 Yuanchao Li,Zixing Zhang,Jing Han,Peter Bell,Catherine Lai
発行日 2025-04-30 13:24:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling はコメントを受け付けていません

Revise, Reason, and Recognize: LLM-Based Emotion Recognition via Emotion-Specific Prompts and ASR Error Correction

要約

迅速なエンジニアリングを使用して音声感情を注釈と認識して、最近、大規模な言語モデル(LLM)の進歩により出現しましたが、その有効性と信頼性は疑わしいままです。
この論文では、音響、言語学、心理学から感情固有の知識を取り入れた新しいプロンプトの提案から始めて、このトピックに関する体系的な研究を実施します。
その後、自動音声認識(ASR)転写に対するLLMベースのプロンプトの有効性を調べ、グラウンドトゥルース転写とは対照的です。
さらに、ASRエラーを備えた音声言語からの堅牢なLLMベースの感情認識のためのパイプラインのパイプラインの改訂を認識することを提案します。
さらに、コンテキスト認識学習、コンテキスト内学習、および指導チューニングに関する実験が実行され、LLMトレーニングスキームの有用性がこの方向にあることを調べます。
最後に、LLMSの感度をマイナーな迅速な変動に調査します。
実験結果は、LLMベースの感情認識のための感情固有のプロンプト、ASRエラー補正、LLMトレーニングスキームの有効性を示しています。
私たちの研究の目的は、感情認識と関連ドメインでのLLMの使用を改良することです。

要約(オリジナル)

Annotating and recognizing speech emotion using prompt engineering has recently emerged with the advancement of Large Language Models (LLMs), yet its efficacy and reliability remain questionable. In this paper, we conduct a systematic study on this topic, beginning with the proposal of novel prompts that incorporate emotion-specific knowledge from acoustics, linguistics, and psychology. Subsequently, we examine the effectiveness of LLM-based prompting on Automatic Speech Recognition (ASR) transcription, contrasting it with ground-truth transcription. Furthermore, we propose a Revise-Reason-Recognize prompting pipeline for robust LLM-based emotion recognition from spoken language with ASR errors. Additionally, experiments on context-aware learning, in-context learning, and instruction tuning are performed to examine the usefulness of LLM training schemes in this direction. Finally, we investigate the sensitivity of LLMs to minor prompt variations. Experimental results demonstrate the efficacy of the emotion-specific prompts, ASR error correction, and LLM training schemes for LLM-based emotion recognition. Our study aims to refine the use of LLMs in emotion recognition and related domains.

arxiv情報

著者 Yuanchao Li,Yuan Gong,Chao-Han Huck Yang,Peter Bell,Catherine Lai
発行日 2025-04-30 13:26:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Revise, Reason, and Recognize: LLM-Based Emotion Recognition via Emotion-Specific Prompts and ASR Error Correction はコメントを受け付けていません

Exploring Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations

要約

音楽と音楽からの感情の認識は、音響の重複のために類似点を共有しており、これらのドメイン間で知識を転送することに関心を持っています。
ただし、スピーチと音楽の間の共通のアコースティックキュー、特に自己監視学習(SSL)モデルによってエンコードされたものは、スピーチと音楽のSSLモデルがクロスドメインの研究ではめったに適用されないという事実を考えると、ほとんど未開拓のままです。
この作業では、音声感情認識(SER)と音楽感情認識(MER)のSSLモデルの層状動作の分析から始めて、感情のスピーチと音楽の音響の類似性を再訪します。
さらに、2段階の微調整プロセスでいくつかのアプローチを比較することにより、クロスドメインの適応を実行し、SERのために音楽を活用する効果的な方法をMERに使用します。
最後に、個々の感情のフレシェットオーディオ距離を使用して、感情的なスピーチと音楽の音楽の類似性を探り、スピーチと音楽SSLモデルの両方で感情バイアスの問題を明らかにします。
私たちの調査結果は、スピーチと音楽のSSLモデルが共有の音響的特徴をキャプチャする一方で、その行動は、トレーニング戦略とドメイン特異性により、異なる感情によって異なる場合があることが明らかになりました。
さらに、パラメーター効率の高い微調整は、互いに知識を活用することにより、SERとMERのパフォーマンスを向上させることができます。
この研究は、感情的なスピーチと音楽の間の音響的類似性に関する新しい洞察を提供し、Domainクロスの一般化がSERおよびMERシステムを改善する可能性を強調しています。

要約(オリジナル)

Emotion recognition from speech and music shares similarities due to their acoustic overlap, which has led to interest in transferring knowledge between these domains. However, the shared acoustic cues between speech and music, particularly those encoded by Self-Supervised Learning (SSL) models, remain largely unexplored, given the fact that SSL models for speech and music have rarely been applied in cross-domain research. In this work, we revisit the acoustic similarity between emotion speech and music, starting with an analysis of the layerwise behavior of SSL models for Speech Emotion Recognition (SER) and Music Emotion Recognition (MER). Furthermore, we perform cross-domain adaptation by comparing several approaches in a two-stage fine-tuning process, examining effective ways to utilize music for SER and speech for MER. Lastly, we explore the acoustic similarities between emotional speech and music using Frechet audio distance for individual emotions, uncovering the issue of emotion bias in both speech and music SSL models. Our findings reveal that while speech and music SSL models do capture shared acoustic features, their behaviors can vary depending on different emotions due to their training strategies and domain-specificities. Additionally, parameter-efficient fine-tuning can enhance SER and MER performance by leveraging knowledge from each other. This study provides new insights into the acoustic similarity between emotional speech and music, and highlights the potential for cross-domain generalization to improve SER and MER systems.

arxiv情報

著者 Yujia Sun,Zeyu Zhao,Korin Richmond,Yuanchao Li
発行日 2025-04-30 13:32:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Exploring Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations はコメントを受け付けていません