-
最近の投稿
- Lightning UQ Box: A Comprehensive Framework for Uncertainty Quantification in Deep Learning
- Fine-Grained Expressive Power of Weisfeiler-Leman: A Homomorphism Counting Perspective
- Hybrid Feedback for Three-dimensional Convex Obstacle Avoidance (Extended version)
- Self-Deployable, Adaptive Soft Robots Based on Contracting-Cord Particle Jamming
- DecTrain: Deciding When to Train a DNN Online
-
最近のコメント
表示できるコメントはありません。 cs.AI (27713) cs.CL (20937) cs.CR (2171) cs.CV (34430) cs.LG (32450) cs.RO (15866) cs.SY (2464) eess.IV (4226) eess.SY (2458) stat.ML (4346)
「cs.SD」カテゴリーアーカイブ
An efficient text augmentation approach for contextualized Mandarin speech recognition
要約 文脈に応じた自動音声認識 (ASR) システムは、一般的ではない単語の認識 … 続きを読む
Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection
要約 Whisper は、堅牢かつ大規模な多言語音声認識モデルとして、多くの低リ … 続きを読む
Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content
要約 トランジション関連性 場所は、対話者が現在の話者の話を遮ることなく発言でき … 続きを読む
On the Evaluation of Speech Foundation Models for Spoken Language Understanding
要約 音声言語理解評価 (SLUE) ベンチマーク タスク スイートは、自然音声 … 続きを読む
One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model
要約 オールインワンのニューラル モデルを使用した、新しいワンパス複数 ASR … 続きを読む
Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation
要約 Audio-Visual Speech Recognition (AVSR … 続きを読む
LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks
要約 自己教師あり学習 (SSL) ベースの音声モデルは、フルスタックの音声処理 … 続きを読む
Diffusion Gaussian Mixture Audio Denoise
要約 最近の拡散モデルは、オーディオのノイズ除去タスクにおいて有望なパフォーマン … 続きを読む
On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models
要約 Open Whisper-style Speech Model (OWSM … 続きを読む
Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech
要約 この論文では、音声言語識別 (SLI) と、多言語放送および組織内での音声 … 続きを読む