-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation
要約 自動音声認識 (ASR) システムは、吃音に関連した不規則性 (不随意なブ … 続きを読む
To what extent can ASV systems naturally defend against spoofing attacks?
要約 現在の自動話者検証 (ASV) タスクには、ターゲットと非ターゲットの 2 … 続きを読む
One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model
要約 オールインワンのニューラル モデルを使用した、新しいワンパス複数 ASR … 続きを読む
COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning
要約 音声を大規模言語モデル (LLM) に統合し、その結果、命令追従/コンテキ … 続きを読む
Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation
要約 Audio-Visual Speech Recognition (AVSR … 続きを読む
LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks
要約 自己教師あり学習 (SSL) ベースの音声モデルは、フルスタックの音声処理 … 続きを読む
Diffusion Gaussian Mixture Audio Denoise
要約 最近の拡散モデルは、オーディオのノイズ除去タスクにおいて有望なパフォーマン … 続きを読む
End-to-end Streaming model for Low-Latency Speech Anonymization
要約 話者の匿名化は、言語コンテンツを保持しながら話者の身元を示す手がかりを隠す … 続きを読む
On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models
要約 Open Whisper-style Speech Model (OWSM … 続きを読む
Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech
要約 この論文では、音声言語識別 (SLI) と、多言語放送および組織内での音声 … 続きを読む