eess.AS」カテゴリーアーカイブ

Unsupervised ASR via Cross-Lingual Pseudo-Labeling

要約 最近の研究では、ペアになっていない音声とテキストのみを使用して $\tex … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Unsupervised ASR via Cross-Lingual Pseudo-Labeling はコメントを受け付けていません

BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

要約 BASE TTS と呼ばれるテキスト読み上げ (TTS) モデルを導入しま … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data はコメントを受け付けていません

DeepSRGM — Sequence Classification and Ranking in Indian Classical Music with Deep Learning

要約 インド古典音楽 (ICM) の重要な側面はラーガであり、作曲と即興演奏のメ … 続きを読む

カテゴリー: cs.AI, cs.IR, cs.LG, cs.SD, eess.AS | DeepSRGM — Sequence Classification and Ranking in Indian Classical Music with Deep Learning はコメントを受け付けていません

Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio

要約 我々は、プロトタイプ学習に基づいた音楽オーディオ分類の解釈可能なモデル P … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio はコメントを受け付けていません

The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models

要約 急速に進化する医療文書の状況では、臨床対話を正確に書き写すことがますます重 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models はコメントを受け付けていません

LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-TDNN for Speaker Verification

要約 従来の時間遅延ニューラル ネットワーク (TDNN) は、計算の複雑さと推 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-TDNN for Speaker Verification はコメントを受け付けていません

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension

要約 最近、指示に従う音声言語モデルが、人間と音声のインタラクションとして広く注 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension はコメントを受け付けていません

Developing a Multi-variate Prediction Model For COVID-19 From Crowd-sourced Respiratory Voice Data

要約 新型コロナウイルス感染症は世界 223 か国以上に影響を及ぼしており、ポス … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Developing a Multi-variate Prediction Model For COVID-19 From Crowd-sourced Respiratory Voice Data はコメントを受け付けていません

Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription

要約 最先端のエンドツーエンドの光学式音楽認識 (OMR) は、これまで主にモノ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription はコメントを受け付けていません

Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification

要約 ラベルのないデータに対して自己教師あり目標を使用して大規模な基礎モデルをト … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification はコメントを受け付けていません