-
最近の投稿
- Non-Gaited Legged Locomotion with Monte-Carlo Tree Search and Supervised Learning
- Agricultural Industry Initiatives on Autonomy: How collaborative initiatives of VDMA and AEF can facilitate complexity in domain crossing harmonization needs
- Physics-Grounded Differentiable Simulation for Soft Growing Robots
- SLIM: Sim-to-Real Legged Instructive Manipulation via Long-Horizon Visuomotor Learning
- Online Trajectory Replanner for Dynamically Grasping Irregular Objects
-
最近のコメント
表示できるコメントはありません。 cs.AI (32994) cs.CL (24943) cs.CR (2553) cs.CV (39129) cs.LG (37903) cs.RO (19188) cs.SY (2936) eess.IV (4690) eess.SY (2930) stat.ML (4984)
「cs.SD」カテゴリーアーカイブ
MusicLIME: Explainable Multimodal Music Understanding
要約 マルチモーダル モデルは、オーディオと歌詞の間の複雑な相互作用を捉えるため … 続きを読む
An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems
要約 音声アシスタントなどの対話システムは、複雑で進化する会話にユーザーと関わる … 続きを読む
2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation?
要約 共同スピーチのジェスチャーはコミュニケーションの基本です。 最近の深層学習 … 続きを読む
Biomimetic Frontend for Differentiable Audio Processing
要約 オーディオおよび音声処理のモデルはより深く、よりエンドツーエンドになってい … 続きを読む
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions
要約 大規模言語モデル (LLM) の最近の進歩はさまざまな領域に革命をもたらし … 続きを読む
LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation
要約 音声情報を大規模言語モデル (LLM) に統合する最近の進歩により、自動音 … 続きを読む
Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling
要約 音声韻律モデリングにおける一般的なアプローチのほとんどは、参照音声の属性を … 続きを読む
Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR
要約 自己教師あり学習 (SSL) ベースの離散音声表現は非常にコンパクトで、ド … 続きを読む
Exploring SSL Discrete Tokens for Multilingual ASR
要約 音声関連タスクにおける自己教師あり学習 (SSL) の進歩に伴い、より高速 … 続きを読む
Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages
要約 この研究では、絶滅危惧種の 2 つのオーストロネシア語、アミ語とセデクに焦 … 続きを読む