-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability
要約 人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む
Ultra Low Complexity Deep Learning Based Noise Suppression
要約 この論文では、リソースに制約のあるデバイス上でリアルタイムの音声強調を行う … 続きを読む
Conformers are All You Need for Visual Speech Recognition
要約 視覚的音声認識モデルは、階層的な方法で視覚的特徴を抽出します。 下位レベル … 続きを読む
Extending Whisper with prompt tuning to target-speaker ASR
要約 対象話者自動音声認識 (ASR) は、複数の話者の重複した発話から対象話者 … 続きを読む
TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization
要約 最近、エンドツーエンドのニューラルダイアライゼーション (EEND) が導 … 続きを読む
Self-supervised Adaptive Pre-training of Multilingual Speech Models for Language and Dialect Identification
要約 事前トレーニングされた Transformer ベースの音声モデルは、自動 … 続きを読む
More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory
要約 バニラ フュージョン手法は、依然として主流のオーディオビジュアルタスクの大 … 続きを読む
Creating Spoken Dialog Systems in Ultra-Low Resourced Settings
要約 自動音声認識 (ASR) システムは、現在さまざまなアプリケーション、特に … 続きを読む
Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations
要約 会話におけるマルチモーダル感情認識 (MERC) の主なタスクは、テキスト … 続きを読む