-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Developing a Multi-variate Prediction Model For COVID-19 From Crowd-sourced Respiratory Voice Data
要約 新型コロナウイルス感染症は世界 223 か国以上に影響を及ぼしており、ポス … 続きを読む
Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription
要約 最先端のエンドツーエンドの光学式音楽認識 (OMR) は、これまで主にモノ … 続きを読む
Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification
要約 ラベルのないデータに対して自己教師あり目標を使用して大規模な基礎モデルをト … 続きを読む
Self-consistent context aware conformer transducer for speech recognition
要約 我々は、ASR システムにコンテキスト情報フローを追加する配座異性体トラン … 続きを読む
A Multi-Perspective Machine Learning Approach to Evaluate Police-Driver Interaction in Los Angeles
要約 政府職員と民間人の間の交流は、公共の福祉と民主主義社会の機能に必要な国家の … 続きを読む
Establishing degrees of closeness between audio recordings along different dimensions using large-scale cross-lingual models
要約 リソースが少ない言語研究という非常に制約されたコンテキストにおいて、事前学 … 続きを読む
Unified Speech-Text Pretraining for Spoken Dialog Modeling
要約 最近の研究では、音声を直接理解して合成するための大規模言語モデル (LLM … 続きを読む
SpiRit-LM: Interleaved Spoken and Written Language Model
要約 テキストと音声を自由に混合する基礎マルチモーダル言語モデルである SPIR … 続きを読む
Integrating Self-supervised Speech Model with Pseudo Word-level Targets from Visually-grounded Speech Model
要約 自己教師あり音声モデルの最近の進歩により、多くの下流タスクで大幅な改善が見 … 続きを読む
A Multi-Perspective Machine Learning Approach to Evaluate Police-Driver Interaction in Los Angeles
要約 政府職員と民間人の間の交流は、公共の福祉と民主主義社会の機能に必要な国家の … 続きを読む