eess.AS」カテゴリーアーカイブ

Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation

要約 DiffuseST は、複数のソース言語から英語に翻訳しながら、入力話者の … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation はコメントを受け付けていません

An efficient text augmentation approach for contextualized Mandarin speech recognition

要約 文脈に応じた自動音声認識 (ASR) システムは、一般的ではない単語の認識 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | An efficient text augmentation approach for contextualized Mandarin speech recognition はコメントを受け付けていません

Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection

要約 Whisper は、堅牢かつ大規模な多言語音声認識モデルとして、多くの低リ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection はコメントを受け付けていません

Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content

要約 トランジション関連性 場所は、対話者が現在の話者の話を遮ることなく発言でき … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content はコメントを受け付けていません

On the Evaluation of Speech Foundation Models for Spoken Language Understanding

要約 音声言語理解評価 (SLUE) ベンチマーク タスク スイートは、自然音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | On the Evaluation of Speech Foundation Models for Spoken Language Understanding はコメントを受け付けていません

Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation

要約 自動音声認識 (ASR) システムは、吃音に関連した不規則性 (不随意なブ … 続きを読む

カテゴリー: cs.CL, eess.AS, I.2 | Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation はコメントを受け付けていません

To what extent can ASV systems naturally defend against spoofing attacks?

要約 現在の自動話者検証 (ASV) タスクには、ターゲットと非ターゲットの 2 … 続きを読む

カテゴリー: cs.AI, eess.AS | To what extent can ASV systems naturally defend against spoofing attacks? はコメントを受け付けていません

One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model

要約 オールインワンのニューラル モデルを使用した、新しいワンパス複数 ASR … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model はコメントを受け付けていません

COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning

要約 音声を大規模言語モデル (LLM) に統合し、その結果、命令追従/コンテキ … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning はコメントを受け付けていません

Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

要約 Audio-Visual Speech Recognition (AVSR … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation はコメントを受け付けていません