-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation
要約 私たちが知覚する画像と音は、頭を回転させると、微妙ですが幾何学的に一貫した … 続きを読む
Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding
要約 最近、大規模な事前トレーニング済み言語モデルが強力な言語理解能力を実証して … 続きを読む
Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge
要約 この論文は、これまでの文献では十分に取り上げられていなかった、特に低リソー … 続きを読む
TrOMR:Transformer-Based Polyphonic Optical Music Recognition
要約 光学式音楽認識 (OMR) は音楽における重要な技術であり、長い間研究され … 続きを読む
Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model
要約 自然言語処理の研究では、トレーニングされた自己回帰言語モデルからの生成の品 … 続きを読む
Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning
要約 私たちは、650 時間以上の 19 チャンネル オーディオ、一次アンビソニ … 続きを読む
Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions
要約 私たちは、オーディオビジュアル アクション イベントの大規模なデータセット … 続きを読む
Accurate synthesis of Dysarthric Speech for ASR data augmentation
要約 構音障害は、発語筋の制御が遅く、協調性を欠いていることによる音声明瞭度の低 … 続きを読む
End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations
要約 従来のキーワード検索システムは自動音声認識 (ASR) 出力で動作するため … 続きを読む