cs.SD」カテゴリーアーカイブ

An efficient text augmentation approach for contextualized Mandarin speech recognition

要約 文脈に応じた自動音声認識 (ASR) システムは、一般的ではない単語の認識 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | An efficient text augmentation approach for contextualized Mandarin speech recognition はコメントを受け付けていません

Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection

要約 Whisper は、堅牢かつ大規模な多言語音声認識モデルとして、多くの低リ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection はコメントを受け付けていません

Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content

要約 トランジション関連性 場所は、対話者が現在の話者の話を遮ることなく発言でき … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content はコメントを受け付けていません

On the Evaluation of Speech Foundation Models for Spoken Language Understanding

要約 音声言語理解評価 (SLUE) ベンチマーク タスク スイートは、自然音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | On the Evaluation of Speech Foundation Models for Spoken Language Understanding はコメントを受け付けていません

One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model

要約 オールインワンのニューラル モデルを使用した、新しいワンパス複数 ASR … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model はコメントを受け付けていません

Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

要約 Audio-Visual Speech Recognition (AVSR … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation はコメントを受け付けていません

LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks

要約 自己教師あり学習 (SSL) ベースの音声モデルは、フルスタックの音声処理 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks はコメントを受け付けていません

Diffusion Gaussian Mixture Audio Denoise

要約 最近の拡散モデルは、オーディオのノイズ除去タスクにおいて有望なパフォーマン … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Diffusion Gaussian Mixture Audio Denoise はコメントを受け付けていません

On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models

要約 Open Whisper-style Speech Model (OWSM … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models はコメントを受け付けていません

Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech

要約 この論文では、音声言語識別 (SLI) と、多言語放送および組織内での音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech はコメントを受け付けていません