eess.AS」カテゴリーアーカイブ

LLaSM: Large Language and Speech Model

要約 マルチモーダル大規模言語モデルは、最近大きな関心を集めています。 ただし、 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | LLaSM: Large Language and Speech Model はコメントを受け付けていません

Speech Separation based on Contrastive Learning and Deep Modularization

要約 現在のモノラルの最先端の音声分離ツールは教師あり学習に依存しています。 こ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Speech Separation based on Contrastive Learning and Deep Modularization はコメントを受け付けていません

RoDia: A New Dataset for Romanian Dialect Identification from Speech

要約 方言の識別は、音声処理および言語テクノロジにおいて重要なタスクであり、音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | RoDia: A New Dataset for Romanian Dialect Identification from Speech はコメントを受け付けていません

Leveraging Large Language Models for Exploiting ASR Uncertainty

要約 大規模な言語モデルはさまざまな自然言語処理 (NLP) タスクに優れていま … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | Leveraging Large Language Models for Exploiting ASR Uncertainty はコメントを受け付けていません

Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio Representation

要約 この論文では、GENEA (身体エージェントのための非言語行動の生成と評価 … 続きを読む

カテゴリー: 68T42, cs.HC, cs.LG, cs.SD, eess.AS, I.2.6 | Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio Representation はコメントを受け付けていません

GRASS: Unified Generation Model for Speech-to-Semantic Tasks

要約 この論文では、音声データのタスク関連プロンプトを条件としたターゲット テキ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | GRASS: Unified Generation Model for Speech-to-Semantic Tasks はコメントを受け付けていません

Addressing Feature Imbalance in Sound Source Separation

要約 ニューラル ネットワークは、タスクを解決するために特定の機能に過度に依存し … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Addressing Feature Imbalance in Sound Source Separation はコメントを受け付けていません

Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP

要約 表現力豊かな Text-to-Speech (TTS) の領域では、明示的 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP はコメントを受け付けていません

LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech

要約 自己教師あり学習 (SSL) は、コンピューター ビジョンや自然言語処理な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech はコメントを受け付けていません

Parallel and Limited Data Voice Conversion Using Stochastic Variational Deep Kernel Learning

要約 通常、音声変換はトレーニング データが限られているエンジニアリング上の問題 … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Parallel and Limited Data Voice Conversion Using Stochastic Variational Deep Kernel Learning はコメントを受け付けていません