-
最近の投稿
- Topological mapping for traversability-aware long-range navigation in off-road terrain
- Equality Constrained Diffusion for Direct Trajectory Optimization
- Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case
- Bi-Level Motion Imitation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (27641) cs.CL (20879) cs.CR (2167) cs.CV (34375) cs.LG (32373) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「eess.AS」カテゴリーアーカイブ
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions
要約 大規模言語モデル (LLM) の最近の進歩はさまざまな領域に革命をもたらし … 続きを読む
LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation
要約 音声情報を大規模言語モデル (LLM) に統合する最近の進歩により、自動音 … 続きを読む
Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling
要約 音声韻律モデリングにおける一般的なアプローチのほとんどは、参照音声の属性を … 続きを読む
NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training
要約 音声の自己監視型事前トレーニングは、下流のタスクのパフォーマンスを効果的に … 続きを読む
Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR
要約 自己教師あり学習 (SSL) ベースの離散音声表現は非常にコンパクトで、ド … 続きを読む
Exploring SSL Discrete Tokens for Multilingual ASR
要約 音声関連タスクにおける自己教師あり学習 (SSL) の進歩に伴い、より高速 … 続きを読む
Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages
要約 この研究では、絶滅危惧種の 2 つのオーストロネシア語、アミ語とセデクに焦 … 続きを読む
Towards Leveraging Contrastively Pretrained Neural Audio Embeddings for Recommender Tasks
要約 音楽レコメンダー システムは、音楽作品、アーティスト、ユーザー間の関係を把 … 続きを読む
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis
要約 ドメイン外 (OOD) 歌声合成 (SVS) のためのスタイル転送は、リフ … 続きを読む
Full-text Error Correction for Chinese Speech Recognition with Large Language Model
要約 大規模言語モデル (LLM) は、自動音声認識 (ASR) におけるエラー … 続きを読む