eess.AS」カテゴリーアーカイブ

Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation

要約 自動音声認識 (ASR) システムは、吃音に関連した不規則性 (不随意なブ … 続きを読む

カテゴリー: cs.CL, eess.AS, I.2 | Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation はコメントを受け付けていません

To what extent can ASV systems naturally defend against spoofing attacks?

要約 現在の自動話者検証 (ASV) タスクには、ターゲットと非ターゲットの 2 … 続きを読む

カテゴリー: cs.AI, eess.AS | To what extent can ASV systems naturally defend against spoofing attacks? はコメントを受け付けていません

One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model

要約 オールインワンのニューラル モデルを使用した、新しいワンパス複数 ASR … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model はコメントを受け付けていません

COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning

要約 音声を大規模言語モデル (LLM) に統合し、その結果、命令追従/コンテキ … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning はコメントを受け付けていません

Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

要約 Audio-Visual Speech Recognition (AVSR … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation はコメントを受け付けていません

LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks

要約 自己教師あり学習 (SSL) ベースの音声モデルは、フルスタックの音声処理 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks はコメントを受け付けていません

Diffusion Gaussian Mixture Audio Denoise

要約 最近の拡散モデルは、オーディオのノイズ除去タスクにおいて有望なパフォーマン … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Diffusion Gaussian Mixture Audio Denoise はコメントを受け付けていません

End-to-end Streaming model for Low-Latency Speech Anonymization

要約 話者の匿名化は、言語コンテンツを保持しながら話者の身元を示す手がかりを隠す … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | End-to-end Streaming model for Low-Latency Speech Anonymization はコメントを受け付けていません

On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models

要約 Open Whisper-style Speech Model (OWSM … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models はコメントを受け付けていません

Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech

要約 この論文では、音声言語識別 (SLI) と、多言語放送および組織内での音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech はコメントを受け付けていません