cs.SD」カテゴリーアーカイブ

RoDia: A New Dataset for Romanian Dialect Identification from Speech

要約 方言の識別は、音声処理および言語テクノロジにおいて重要なタスクであり、音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | RoDia: A New Dataset for Romanian Dialect Identification from Speech はコメントを受け付けていません

Leveraging Large Language Models for Exploiting ASR Uncertainty

要約 大規模な言語モデルはさまざまな自然言語処理 (NLP) タスクに優れていま … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | Leveraging Large Language Models for Exploiting ASR Uncertainty はコメントを受け付けていません

Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio Representation

要約 この論文では、GENEA (身体エージェントのための非言語行動の生成と評価 … 続きを読む

カテゴリー: 68T42, cs.HC, cs.LG, cs.SD, eess.AS, I.2.6 | Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio Representation はコメントを受け付けていません

GRASS: Unified Generation Model for Speech-to-Semantic Tasks

要約 この論文では、音声データのタスク関連プロンプトを条件としたターゲット テキ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | GRASS: Unified Generation Model for Speech-to-Semantic Tasks はコメントを受け付けていません

Addressing Feature Imbalance in Sound Source Separation

要約 ニューラル ネットワークは、タスクを解決するために特定の機能に過度に依存し … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Addressing Feature Imbalance in Sound Source Separation はコメントを受け付けていません

Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP

要約 表現力豊かな Text-to-Speech (TTS) の領域では、明示的 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP はコメントを受け付けていません

LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech

要約 自己教師あり学習 (SSL) は、コンピューター ビジョンや自然言語処理な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech はコメントを受け付けていません

Parallel and Limited Data Voice Conversion Using Stochastic Variational Deep Kernel Learning

要約 通常、音声変換はトレーニング データが限られているエンジニアリング上の問題 … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Parallel and Limited Data Voice Conversion Using Stochastic Variational Deep Kernel Learning はコメントを受け付けていません

LanSER: Language-Model Supported Speech Emotion Recognition

要約 音声感情認識 (SER) モデルは通常、トレーニングにコストのかかる人間が … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | LanSER: Language-Model Supported Speech Emotion Recognition はコメントを受け付けていません

Multiple Representation Transfer from Large Language Models to End-to-End ASR Systems

要約 大規模言語モデル (LLM) の知識の転送は、言語知識をエンドツーエンドの … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Multiple Representation Transfer from Large Language Models to End-to-End ASR Systems はコメントを受け付けていません