-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Rethinking Audio-visual Synchronization for Active Speaker Detection
要約 アクティブスピーカー検出(ASD)システムは、マルチトーカーの会話を分析す … 続きを読む
SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning
要約 3D環境向けのオンザフライのジオメトリベースのオーディオレンダリング用のプ … 続きを読む
VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection
要約 この作品の目標は、静かに話す顔のビデオからスピーチを再構築することです。 … 続きを読む
AVATAR: Unconstrained Audiovisual Speech Recognition
要約 視聴覚自動音声認識(AV-ASR)は、ASRの拡張機能であり、多くの場合、 … 続きを読む
General-purpose, long-context autoregressive modeling with Perceiver AR
要約 実世界のデータは高次元です。本、画像、または音楽のパフォーマンスには、圧縮 … 続きを読む
Learning Speaker-specific Lip-to-Speech Generation
要約 唇の動きを理解し、それからスピーチを推測することは、一般の人にとって悪名高 … 続きを読む
M2FNet: Multi-modal Fusion Network for Emotion Recognition in Conversation
要約 会話における感情認識(ERC)は、交感神経の人間と機械の相互作用を発達させ … 続きを読む
Canonical Cortical Graph Neural Networks and its Application for Speech Enhancement in Future Audio-Visual Hearing Aids
要約 近年の機械学習アルゴリズムの成功にもかかわらず、これらのモデルの多くは、マ … 続きを読む
FedNST: Federated Noisy Student Training for Automatic Speech Recognition
要約 Federated Learning (FL) は、分散システムにおいて、 … 続きを読む