cs.SD」カテゴリーアーカイブ

V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow

要約 このペーパーでは、静かな話の顔のビデオから直接自然でわかりやすいスピーチを … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow はコメントを受け付けていません

Automatic classification of stop realisation with wav2vec2.0

要約 現代の音声研究は、音声データの注釈のために自動ツールを定期的に使用していま … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Automatic classification of stop realisation with wav2vec2.0 はコメントを受け付けていません

Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation

要約 聴診、特にハートサウンドは、重要な兆候情報を提供する非侵襲的な手法です。 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation はコメントを受け付けていません

ZeroSep: Separate Anything in Audio with Zero Training

要約 オーディオソースの分離は、マシンが複雑な音響環境を理解し、多数のオーディオ … 続きを読む

カテゴリー: cs.CV, cs.SD | ZeroSep: Separate Anything in Audio with Zero Training はコメントを受け付けていません

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

要約 基礎モデルと大規模な言語モデル(LLMS)の急速な進歩は、ミトリモーダル入 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis はコメントを受け付けていません

Effective Context in Neural Speech Models

要約 現代のニューラル音声モデルは、より長いコンテキストを持つことから恩恵を受け … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Effective Context in Neural Speech Models はコメントを受け付けていません

Effective and Efficient One-pass Compression of Speech Foundation Models Using Sparsity-aware Self-pinching Gates

要約 このペーパーでは、モデルの剪定とパラメーターの更新を単一の段階にしっかりと … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Effective and Efficient One-pass Compression of Speech Foundation Models Using Sparsity-aware Self-pinching Gates はコメントを受け付けていません

VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models

要約 音声ベースの相互作用モデルの必要性が高まっているため、エンドツーエンドの音 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models はコメントを受け付けていません

VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin

要約 スピーカー検証システムのパフォーマンスは、スピーカーの老化によって悪影響を … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD | VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin はコメントを受け付けていません

Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement

要約 音声強化(SE)は、騒々しい環境での音声の品質と明瞭度を改善することを目的 … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement はコメントを受け付けていません