-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「cs.SD」カテゴリーアーカイブ
Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability
要約 人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む
Conformers are All You Need for Visual Speech Recognition
要約 視覚的音声認識モデルは、階層的な方法で視覚的特徴を抽出します。 下位レベル … 続きを読む
Extending Whisper with prompt tuning to target-speaker ASR
要約 対象話者自動音声認識 (ASR) は、複数の話者の重複した発話から対象話者 … 続きを読む
TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization
要約 最近、エンドツーエンドのニューラルダイアライゼーション (EEND) が導 … 続きを読む
Self-supervised Adaptive Pre-training of Multilingual Speech Models for Language and Dialect Identification
要約 事前トレーニングされた Transformer ベースの音声モデルは、自動 … 続きを読む
More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory
要約 バニラ フュージョン手法は、依然として主流のオーディオビジュアルタスクの大 … 続きを読む
Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces
要約 自己教師あり音声表現は話者情報と音声情報の両方をエンコードすることが知られ … 続きを読む
Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations
要約 会話におけるマルチモーダル感情認識 (MERC) の主なタスクは、テキスト … 続きを読む
Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation
要約 最近、オーディオビジュアル セグメンテーション (AVS) タスクが導入さ … 続きを読む
Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism
要約 逐次データのディープラーニングの最近の進歩により、人間が話すリアルなビデオ … 続きを読む