-
最近の投稿
- Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning
- Cybernetic Marionette: Channeling Collective Agency Through a Wearable Robot in a Live Dancer-Robot Duet
- Leveraging LLMs for Mission Planning in Precision Agriculture
- Estimating the Joint Probability of Scenario Parameters with Gaussian Mixture Copula Models
- One For All: LLM-based Heterogeneous Mission Planning in Precision Agriculture
-
最近のコメント
表示できるコメントはありません。 cs.AI (39605) cs.CL (29980) cs.CV (44945) cs.HC (3015) cs.LG (44542) cs.RO (23689) cs.SY (3609) eess.IV (5149) eess.SY (3601) stat.ML (5788)
「eess.AS」カテゴリーアーカイブ
VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models
要約 音声ベースの対話モデルの開発に対する需要が高まる中、エンドツーエンドの音声 … 続きを読む
MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder
要約 医療分野における多言語自動音声認識 (ASR) は、音声翻訳、音声言語理解 … 続きを読む
AccentBox: Towards High-Fidelity Zero-Shot Accent Generation
要約 最近の Zero-Shot Text-to-Speech (ZS-TTS) … 続きを読む
Optimizing Estonian TV Subtitles with Semi-supervised Learning and LLMs
要約 この論文では、エストニアの TV コンテンツ向けに高品質の同じ言語の字幕を … 続きを読む
Multi-class Decoding of Attended Speaker Direction Using Electroencephalogram and Audio Spatial Spectrum
要約 聴取者の脳波 (EEG) 信号から聴取者の焦点の指向性を解読することは、聴 … 続きを読む
Seeing Sound: Assembling Sounds from Visuals for Audio-to-Image Generation
要約 音声から画像への生成モデルをトレーニングするには、意味的に整合した多様な音 … 続きを読む
Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition
要約 事前トレーニングされた自動音声認識 (ASR) システムは、一致したドメイ … 続きを読む
Decoding EEG Speech Perception with Transformers and VAE-based Data Augmentation
要約 脳波検査 (EEG) などの非侵襲的な脳信号から音声を解読することは、音声 … 続きを読む
Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores
要約 kNN-CTC モデルは、単言語自動音声認識 (ASR) に有効であること … 続きを読む