-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability
要約 人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む
Conformers are All You Need for Visual Speech Recognition
要約 視覚的音声認識モデルは、階層的な方法で視覚的特徴を抽出します。 下位レベル … 続きを読む
Extending Whisper with prompt tuning to target-speaker ASR
要約 対象話者自動音声認識 (ASR) は、複数の話者の重複した発話から対象話者 … 続きを読む
TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization
要約 最近、エンドツーエンドのニューラルダイアライゼーション (EEND) が導 … 続きを読む
Self-supervised Adaptive Pre-training of Multilingual Speech Models for Language and Dialect Identification
要約 事前トレーニングされた Transformer ベースの音声モデルは、自動 … 続きを読む
More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory
要約 バニラ フュージョン手法は、依然として主流のオーディオビジュアルタスクの大 … 続きを読む
Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces
要約 自己教師あり音声表現は話者情報と音声情報の両方をエンコードすることが知られ … 続きを読む
Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations
要約 会話におけるマルチモーダル感情認識 (MERC) の主なタスクは、テキスト … 続きを読む
Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation
要約 最近、オーディオビジュアル セグメンテーション (AVS) タスクが導入さ … 続きを読む
Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism
要約 逐次データのディープラーニングの最近の進歩により、人間が話すリアルなビデオ … 続きを読む