eess.AS」カテゴリーアーカイブ

Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters

要約 ゼロショット音声合成 (TTS) 方法は、自己教師あり学習 (SSL) 音 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters はコメントを受け付けていません

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video

要約 最大 60% が英語で公開されているインターネットの豊富なコンテンツは、英 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video はコメントを受け付けていません

Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement

要約 オーディオ間 (A2A) スタイル転送の問題には、ソース オーディオのコン … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement はコメントを受け付けていません

HyperGANStrument: Instrument Sound Synthesis and Editing with Pitch-Invariant Hypernetworks

要約 GANStrument は、ピッチ不変特徴抽出器とインスタンス調整技術で … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | HyperGANStrument: Instrument Sound Synthesis and Editing with Pitch-Invariant Hypernetworks はコメントを受け付けていません

HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition

要約 感情表現にはマルチモーダルな性質があるため、会話における感情認識は困難です … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition はコメントを受け付けていません

Masked Audio Generation using a Single Non-Autoregressive Transformer

要約 オーディオ トークンの複数のストリームに対して直接動作する、マスクされた生 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Masked Audio Generation using a Single Non-Autoregressive Transformer はコメントを受け付けていません

Theoretical Framework for the Optimization of Microphone Array Configuration for Humanoid Robot Audition

要約 人型ロボットの重要な側面は聴覚です。 これまでの研究では、さまざまな構成の … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | Theoretical Framework for the Optimization of Microphone Array Configuration for Humanoid Robot Audition はコメントを受け付けていません

Exploratory Evaluation of Speech Content Masking

要約 最近の音声プライバシーの取り組みのほとんどは、音響話者の属性を匿名化するこ … 続きを読む

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS | Exploratory Evaluation of Speech Content Masking はコメントを受け付けていません

Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering

要約 話者ダイアライゼーションにおける最近の研究の進歩は、主にダイアライゼーショ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering はコメントを受け付けていません

Convoifilter: A case study of doing cocktail party speech recognition

要約 このペーパーでは、混雑した騒々しい環境における特定の話者の自動音声認識 ( … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Convoifilter: A case study of doing cocktail party speech recognition はコメントを受け付けていません