-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI
要約 以前のリアルタイム MRI (rtMRI) ベースの音声合成モデルは、ノイ … 続きを読む
Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR
要約 自動音声認識 (ASR) システムは、構音障害のある音声に対してはパフォー … 続きを読む
SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words
要約 音声には、内容、パラ言語、環境情報などを含むがこれらに限定されない豊富な情 … 続きを読む
AudioBERT: Audio Knowledge Augmented Language Model
要約 最近の研究では、テキストのみのデータセットで事前トレーニングされた言語モデ … 続きを読む
Sines, Transient, Noise Neural Modeling of Piano Notes
要約 この論文では、ピアノサウンドをエミュレートする新しい方法を紹介します。 正 … 続きを読む
Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models
要約 この論文では、選択的状態空間モデルを備えたディープ ニューラル ネットワー … 続きを読む
Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation
要約 この論文では、コンピューター ビジョンの Frechet Inceptio … 続きを読む
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
要約 最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む
Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning
要約 メトリクス学習はサンプルを埋め込み空間に投影し、そこで学習された表現に基づ … 続きを読む
Salmon: A Suite for Acoustic Language Model Evaluation
要約 音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む