cs.SD」カテゴリーアーカイブ

Comparative Analysis of the wav2vec 2.0 Feature Extractor

要約 自動音声認識 (ASR) システムは通常、手作りの特徴抽出パイプラインを使 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Comparative Analysis of the wav2vec 2.0 Feature Extractor はコメントを受け付けていません

Towards an AI to Win Ghana’s National Science and Maths Quiz

要約 AI はガーナの国家科学数学クイズ (NSMQ) に勝つことができるでしょ … 続きを読む

カテゴリー: cs.CL, cs.CY, cs.HC, cs.SD, eess.AS | Towards an AI to Win Ghana’s National Science and Maths Quiz はコメントを受け付けていません

Finding Tori: Self-supervised Learning for Analyzing Korean Folk Song

要約 本論文では、1980-90年代に録音された約700時間の韓国民謡のフィール … 続きを読む

カテゴリー: cs.IR, cs.LG, cs.SD, eess.AS | Finding Tori: Self-supervised Learning for Analyzing Korean Folk Song はコメントを受け付けていません

Federated Representation Learning for Automatic Speech Recognition

要約 Federated Learning(FL)はプライバシーを保護するパラダ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Federated Representation Learning for Automatic Speech Recognition はコメントを受け付けていません

Emo-DNA: Emotion Decoupling and Alignment Learning for Cross-Corpus Speech Emotion Recognition

要約 コーパス横断的音声感情認識(SER)は、ラベル付けされたコーパスからラベル … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Emo-DNA: Emotion Decoupling and Alignment Learning for Cross-Corpus Speech Emotion Recognition はコメントを受け付けていません

Efficient Monaural Speech Enhancement using Spectrum Attention Fusion

要約 音声強調は、自動音声処理パイプラインにおける要求の厳しいタスクであり、ノイ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Efficient Monaural Speech Enhancement using Spectrum Attention Fusion はコメントを受け付けていません

N-gram Boosting: Improving Contextual Biasing with Normalized N-gram Targets

要約 固有名詞や専門用語の正確な書き起こしは、ビジネス会話の音声テキスト化アプリ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | N-gram Boosting: Improving Contextual Biasing with Normalized N-gram Targets はコメントを受け付けていません

Video Background Music Generation: Dataset, Method and Evaluation

要約 動画編集に音楽は欠かせないが、手作業で選曲するのは難しく、時間もかかる。そ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video Background Music Generation: Dataset, Method and Evaluation はコメントを受け付けていません

Careful Whisper — leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification

要約 本論文では、音声障害の評価を支援するために、音声記録から音声異常を特定する … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Careful Whisper — leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification はコメントを受け付けていません

SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

要約 FastSpeech2 は、ピッチ、エネルギー、長さなどの音声の側面を条件 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis はコメントを受け付けていません