-
最近の投稿
- 3D Water Quality Mapping using Invariant Extended Kalman Filtering for Underwater Robot Localization
- Hybrid Visual Servoing of Tendon-driven Continuum Robots
- Embodying Control in Soft Multistable Grippers from morphofunctional co-design
- View-Invariant Policy Learning via Zero-Shot Novel View Synthesis
- ModSkill: Physical Character Skill Modularization
-
最近のコメント
表示できるコメントはありません。 cs.AI (34028) cs.CL (25726) cs.CR (2616) cs.CV (39965) cs.LG (39031) cs.RO (19850) cs.SY (3019) eess.IV (4757) eess.SY (3013) stat.ML (5150)
「cs.SD」カテゴリーアーカイブ
Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding
要約 音声言語理解 (SLU) は、音声の分野における構造予測タスクです。 最近 … 続きを読む
Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments
要約 オーディオ信号処理における深層強化学習 (DRL) アプローチは近年大幅な … 続きを読む
MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI
要約 以前のリアルタイム MRI (rtMRI) ベースの音声合成モデルは、ノイ … 続きを読む
Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR
要約 自動音声認識 (ASR) システムは、構音障害のある音声に対してはパフォー … 続きを読む
SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words
要約 音声には、内容、パラ言語、環境情報などを含むがこれらに限定されない豊富な情 … 続きを読む
AudioBERT: Audio Knowledge Augmented Language Model
要約 最近の研究では、テキストのみのデータセットで事前トレーニングされた言語モデ … 続きを読む
Sines, Transient, Noise Neural Modeling of Piano Notes
要約 この論文では、ピアノサウンドをエミュレートする新しい方法を紹介します。 正 … 続きを読む
Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models
要約 この論文では、選択的状態空間モデルを備えたディープ ニューラル ネットワー … 続きを読む
Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation
要約 この論文では、コンピューター ビジョンの Frechet Inceptio … 続きを読む
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
要約 最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む