eess.AS」カテゴリーアーカイブ

N-gram Boosting: Improving Contextual Biasing with Normalized N-gram Targets

要約 固有名詞や専門用語の正確な書き起こしは、ビジネス会話の音声テキスト化アプリ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | N-gram Boosting: Improving Contextual Biasing with Normalized N-gram Targets はコメントを受け付けていません

Video Background Music Generation: Dataset, Method and Evaluation

要約 動画編集に音楽は欠かせないが、手作業で選曲するのは難しく、時間もかかる。そ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video Background Music Generation: Dataset, Method and Evaluation はコメントを受け付けていません

Careful Whisper — leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification

要約 本論文では、音声障害の評価を支援するために、音声記録から音声異常を特定する … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Careful Whisper — leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification はコメントを受け付けていません

Many-to-Many Spoken Language Translation via Unified Speech and Text Representation Learning with Unit-to-Unit Translation

要約 本稿では、特に音声合成の目的に着目し、多言語音声とテキストの統一的な表現を … 続きを読む

カテゴリー: cs.CL, eess.AS, eess.SP | Many-to-Many Spoken Language Translation via Unified Speech and Text Representation Learning with Unit-to-Unit Translation はコメントを受け付けていません

SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

要約 FastSpeech2 は、ピッチ、エネルギー、長さなどの音声の側面を条件 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis はコメントを受け付けていません

Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR

要約 新しい LLM ベースのユースケースを世界中の人々が利用できるようにするに … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR はコメントを受け付けていません

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

要約 私たちは、新しいタスク、つまり、低リソースのテキストで会話するアバターに興 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis はコメントを受け付けていません

Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning

要約 Amazon Echo や Google Home などのスマート スピー … 続きを読む

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS | Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning はコメントを受け付けていません

Sequence-Level Knowledge Distillation for Class-Incremental End-to-End Spoken Language Understanding

要約 新しい概念を順番に学習する能力は、現代のニューラル ネットワークの大きな弱 … 続きを読む

カテゴリー: cs.CL, eess.AS | Sequence-Level Knowledge Distillation for Class-Incremental End-to-End Spoken Language Understanding はコメントを受け付けていません

Generative adversarial networks with physical sound field priors

要約 この論文では、敵対的生成ネットワーク (GAN) を使用した音場の時空間再 … 続きを読む

カテゴリー: 65C60, cs.AI, eess.AS, I.2.10 | Generative adversarial networks with physical sound field priors はコメントを受け付けていません