-
最近の投稿
- Design of a Visual Pose Estimation Algorithm for Moon Landing
- A novel step-by-step procedure for the kinematic calibration of robots using a single draw-wire encoder
- Ultra-High-Frequency Harmony: mmWave Radar and Event Camera Orchestrate Accurate Drone Landing
- Geometric Freeze-Tag Problem
- A Dual-Motor Actuator for Ceiling Robots with High Force and High Speed Capabilities
-
最近のコメント
表示できるコメントはありません。 cs.AI (34107) cs.CL (25783) cs.CR (2623) cs.CV (40027) cs.LG (39092) cs.RO (19895) cs.SY (3026) eess.IV (4764) eess.SY (3020) stat.ML (5162)
「eess.AS」カテゴリーアーカイブ
MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder
要約 医療分野における多言語自動音声認識 (ASR) は、音声翻訳、音声言語理解 … 続きを読む
AccentBox: Towards High-Fidelity Zero-Shot Accent Generation
要約 最近の Zero-Shot Text-to-Speech (ZS-TTS) … 続きを読む
Optimizing Estonian TV Subtitles with Semi-supervised Learning and LLMs
要約 この論文では、エストニアの TV コンテンツ向けに高品質の同じ言語の字幕を … 続きを読む
Multi-class Decoding of Attended Speaker Direction Using Electroencephalogram and Audio Spatial Spectrum
要約 聴取者の脳波 (EEG) 信号から聴取者の焦点の指向性を解読することは、聴 … 続きを読む
Seeing Sound: Assembling Sounds from Visuals for Audio-to-Image Generation
要約 音声から画像への生成モデルをトレーニングするには、意味的に整合した多様な音 … 続きを読む
Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition
要約 事前トレーニングされた自動音声認識 (ASR) システムは、一致したドメイ … 続きを読む
Decoding EEG Speech Perception with Transformers and VAE-based Data Augmentation
要約 脳波検査 (EEG) などの非侵襲的な脳信号から音声を解読することは、音声 … 続きを読む
Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores
要約 kNN-CTC モデルは、単言語自動音声認識 (ASR) に有効であること … 続きを読む
Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models
要約 私たちは、状態空間モデル (SSM) の基礎に基づいて構築された、新しい … 続きを読む