-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering
要約 話者ダイアライゼーションにおける最近の研究の進歩は、主にダイアライゼーショ … 続きを読む
A Deep Learning System for Domain-specific speech Recognition
要約 人間と機械の音声インターフェイスにより、ますますインテリジェントになる機械 … 続きを読む
Relate auditory speech to EEG by shallow-deep attention-based network
要約 脳波 (EEG) は、脳がさまざまな刺激にどのように反応するかを検出する上 … 続きを読む
Exploring Representation Learning for Small-Footprint Keyword Spotting
要約 この論文では、低リソース キーワード スポッティング (KWS) の表現学 … 続きを読む
On-the-fly Text Retrieval for End-to-End ASR Adaptation
要約 エンド ツー エンドの音声認識モデルは、通常は外部言語モデルとの融合によっ … 続きを読む
Code-Switching Text Generation and Injection in Mandarin-English ASR
要約 コードスイッチング音声とは、1 つの発話内で 2 つ以上の言語を混合するこ … 続きを読む
Cocktail HuBERT: Generalized Self-Supervised Pre-training for Mixture and Single-Source Speech
要約 自己教師あり学習は、ラベル付けされていないデータを効果的に活用し、ラベル付 … 続きを読む
Multitrack Music Transformer
要約 変圧器モデルを使用してマルチトラック音楽を生成するための既存のアプローチは … 続きを読む
Dual-stream Time-Delay Neural Network with Dynamic Global Filter for Speaker Verification
要約 時間遅延ニューラル ネットワーク (TDNN) は、テキストに依存しない話 … 続きを読む
Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation
要約 私たちが知覚する画像と音は、頭を回転させると、微妙ではあるが幾何学的に一貫 … 続きを読む