cs.SD」カテゴリーアーカイブ

End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders

要約 タイトル:Joint CTC lossと自己教師あり事前学習音声エンコーダ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders はコメントを受け付けていません

NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

要約 タイトル:NaturalSpeech 2:潜在的拡散モデルは自然で、ゼロシ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers はコメントを受け付けていません

Unsupervised Improvement of Audio-Text Cross-Modal Representations

要約 タイトル:オーディオ-テキストのクロスモーダル表現の自己学習改善 要約: … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Unsupervised Improvement of Audio-Text Cross-Modal Representations はコメントを受け付けていません

Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust Speech Recognition

要約 タイトル:End-to-Endノイズロバスト音声認識におけるマルチタスク学 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust Speech Recognition はコメントを受け付けていません

What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis

要約 タイトル:エンドツーエンド音声モデルは話者、言語、チャネル情報について何を … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis はコメントを受け付けていません

Egocentric Audio-Visual Noise Suppression

要約 【タイトル】エゴセントリックなオーディオ・ビジュアルノイズサプレッション … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | Egocentric Audio-Visual Noise Suppression はコメントを受け付けていません

Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research

要約 タイトル: 音質の影響が自然なインファント指向性音声研究における長時間録音 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research はコメントを受け付けていません

Considerations for Ethical Speech Recognition Datasets

要約 タイトル:公正な音声認識データセットに関する考慮事項 要約: -音声AI技 … 続きを読む

カテゴリー: cs.CL, cs.CY, cs.SD, eess.AS | Considerations for Ethical Speech Recognition Datasets はコメントを受け付けていません

M2-CTTS: End-to-End Multi-scale Multi-modal Conversational Text-to-Speech Synthesis

要約 【タイトル】 M2-CTTS: 多層多様な言語・音声モダリティに対応した会 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | M2-CTTS: End-to-End Multi-scale Multi-modal Conversational Text-to-Speech Synthesis はコメントを受け付けていません

Low-Resource Music Genre Classification with Cross-Modal Neural Model Reprogramming

要約 タイトル:「クロスモーダルニューラルモデル再プログラミングによる低リソース … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.NE, cs.SD, eess.AS | Low-Resource Music Genre Classification with Cross-Modal Neural Model Reprogramming はコメントを受け付けていません