-
最近の投稿
- Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL
- Nearly Optimal Nonlinear Safe Control with BaS-SDRE
- Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station
- LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning
- CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (36968) cs.CL (27986) cs.CV (42734) cs.HC (2830) cs.LG (41908) cs.RO (21895) cs.SY (3335) eess.IV (4980) eess.SY (3327) stat.ML (5485)
「cs.SD」カテゴリーアーカイブ
MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder
要約 医療分野における多言語自動音声認識 (ASR) は、音声翻訳、音声言語理解 … 続きを読む
AccentBox: Towards High-Fidelity Zero-Shot Accent Generation
要約 最近の Zero-Shot Text-to-Speech (ZS-TTS) … 続きを読む
Multi-class Decoding of Attended Speaker Direction Using Electroencephalogram and Audio Spatial Spectrum
要約 聴取者の脳波 (EEG) 信号から聴取者の焦点の指向性を解読することは、聴 … 続きを読む
AnCoGen: Analysis, Control and Generation of Speech with a Masked Autoencoder
要約 この記事では、マスクされたオートエンコーダーを利用して音声信号の分析、制御 … 続きを読む
Seeing Sound: Assembling Sounds from Visuals for Audio-to-Image Generation
要約 音声から画像への生成モデルをトレーニングするには、意味的に整合した多様な音 … 続きを読む
Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition
要約 事前トレーニングされた自動音声認識 (ASR) システムは、一致したドメイ … 続きを読む
Decoding EEG Speech Perception with Transformers and VAE-based Data Augmentation
要約 脳波検査 (EEG) などの非侵襲的な脳信号から音声を解読することは、音声 … 続きを読む
Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores
要約 kNN-CTC モデルは、単言語自動音声認識 (ASR) に有効であること … 続きを読む
Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models
要約 私たちは、状態空間モデル (SSM) の基礎に基づいて構築された、新しい … 続きを読む