-
最近の投稿
- Geofenced Unmanned Aerial Robotic Defender for Deer Detection and Deterrence (GUARD)
- mmMirror: Device Free mmWave Indoor NLoS Localization Using Van-Atta-Array IRS
- Fast and Robust Localization for Humanoid Soccer Robot via Iterative Landmark Matching
- Robust 2D lidar-based SLAM in arboreal environments without IMU/GNSS
- REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?
-
最近のコメント
表示できるコメントはありません。 cs.AI (38249) cs.CL (28902) cs.CV (43799) cs.HC (2925) cs.LG (43179) cs.RO (22772) cs.SY (3498) eess.IV (5073) eess.SY (3490) stat.ML (5619)
「cs.SD」カテゴリーアーカイブ
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions
要約 大規模言語モデル (LLM) の最近の進歩はさまざまな領域に革命をもたらし … 続きを読む
LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation
要約 音声情報を大規模言語モデル (LLM) に統合する最近の進歩により、自動音 … 続きを読む
Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling
要約 音声韻律モデリングにおける一般的なアプローチのほとんどは、参照音声の属性を … 続きを読む
Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR
要約 自己教師あり学習 (SSL) ベースの離散音声表現は非常にコンパクトで、ド … 続きを読む
Exploring SSL Discrete Tokens for Multilingual ASR
要約 音声関連タスクにおける自己教師あり学習 (SSL) の進歩に伴い、より高速 … 続きを読む
Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages
要約 この研究では、絶滅危惧種の 2 つのオーストロネシア語、アミ語とセデクに焦 … 続きを読む
Towards Leveraging Contrastively Pretrained Neural Audio Embeddings for Recommender Tasks
要約 音楽レコメンダー システムは、音楽作品、アーティスト、ユーザー間の関係を把 … 続きを読む
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis
要約 ドメイン外 (OOD) 歌声合成 (SVS) のためのスタイル転送は、リフ … 続きを読む
A corpus-based investigation of pitch contours of monosyllabic words in conversational Taiwan Mandarin
要約 中国語では、単独で、または注意して話したときに生成される単音節単語の音調の … 続きを読む
The Faetar Benchmark: Speech Recognition in a Very Under-Resourced Language
要約 Faetar 自動音声認識ベンチマークを紹介します。これは、低リソースの音 … 続きを読む