eess.AS」カテゴリーアーカイブ

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

要約 オーディオは私たちの周りの世界をどのように説明しますか? 本論文では,音か … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment はコメントを受け付けていません

Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples

要約 この作業の目的は、多言語の観点から視覚的に接地された音声モデル (VGS) … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples はコメントを受け付けていません

Context-aware Fine-tuning of Self-supervised Speech Models

要約 自己監視型の事前トレーニング済みトランスフォーマーは、さまざまな音声タスク … 続きを読む

カテゴリー: cs.CL, eess.AS | Context-aware Fine-tuning of Self-supervised Speech Models はコメントを受け付けていません

Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos

要約 物理的なオブジェクトの相互作用から発せられる音をモデリングすることは、現実 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos はコメントを受け付けていません

Cluster-Guided Unsupervised Domain Adaptation for Deep Speaker Embedding

要約 最近の研究では、疑似ラベルが話者検証のための教師なしドメイン適応 (UDA … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Cluster-Guided Unsupervised Domain Adaptation for Deep Speaker Embedding はコメントを受け付けていません

Translate the Beauty in Songs: Jointly Learning to Align Melody and Translate Lyrics

要約 歌の翻訳では、歌詞の翻訳と音符の配置の両方が必要になるため、結果の詩が付随 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Translate the Beauty in Songs: Jointly Learning to Align Melody and Translate Lyrics はコメントを受け付けていません

Egocentric Auditory Attention Localization in Conversations

要約 ディナー パーティーなどの騒がしい会話環境では、人々は選択的な聴覚的注意を … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Egocentric Auditory Attention Localization in Conversations はコメントを受け付けていません

Partially Adaptive Multichannel Joint Reduction of Ego-noise and Environmental Noise

要約 人間とロボットの相互作用は、環境ノイズや自己誘導ノイズ、いわゆる自我ノイズ … 続きを読む

カテゴリー: cs.LG, cs.RO, cs.SD, eess.AS | Partially Adaptive Multichannel Joint Reduction of Ego-noise and Environmental Noise はコメントを受け付けていません

Cross-utterance ASR Rescoring with Graph-based Label Propagation

要約 発話間の音響的類似性を活用することにより、グラフベースのラベル伝播を使用し … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Cross-utterance ASR Rescoring with Graph-based Label Propagation はコメントを受け付けていません

Wave-U-Net Discriminator: Fast and Lightweight Discriminator for Generative Adversarial Network-Based Speech Synthesis

要約 音声合成では、ミニマックス ゲームで生成器 (音声合成器) と弁別器をトレ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | Wave-U-Net Discriminator: Fast and Lightweight Discriminator for Generative Adversarial Network-Based Speech Synthesis はコメントを受け付けていません