-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation
要約 音声情報を大規模言語モデル (LLM) に統合する最近の進歩により、自動音 … 続きを読む
Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling
要約 音声韻律モデリングにおける一般的なアプローチのほとんどは、参照音声の属性を … 続きを読む
NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training
要約 音声の自己監視型事前トレーニングは、下流のタスクのパフォーマンスを効果的に … 続きを読む
Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR
要約 自己教師あり学習 (SSL) ベースの離散音声表現は非常にコンパクトで、ド … 続きを読む
Exploring SSL Discrete Tokens for Multilingual ASR
要約 音声関連タスクにおける自己教師あり学習 (SSL) の進歩に伴い、より高速 … 続きを読む
Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages
要約 この研究では、絶滅危惧種の 2 つのオーストロネシア語、アミ語とセデクに焦 … 続きを読む
Towards Leveraging Contrastively Pretrained Neural Audio Embeddings for Recommender Tasks
要約 音楽レコメンダー システムは、音楽作品、アーティスト、ユーザー間の関係を把 … 続きを読む
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis
要約 ドメイン外 (OOD) 歌声合成 (SVS) のためのスタイル転送は、リフ … 続きを読む
Full-text Error Correction for Chinese Speech Recognition with Large Language Model
要約 大規模言語モデル (LLM) は、自動音声認識 (ASR) におけるエラー … 続きを読む
A corpus-based investigation of pitch contours of monosyllabic words in conversational Taiwan Mandarin
要約 中国語では、単独で、または注意して話したときに生成される単音節単語の音調の … 続きを読む