-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Position Prediction as an Effective Pretraining Strategy
要約 トランスフォーマーは、その強力な表現能力により、自然言語処理(NLP)、コ … 続きを読む
A Single Self-Supervised Model for Many Speech Modalities Enables Zero-Shot Modality Transfer
要約 視聴覚音声モデルは、音声のみのモデルと比較して優れたパフォーマンスと堅牢性 … 続きを読む
Audio-Visual Segmentation
要約 視聴覚セグメンテーション(AVS)と呼ばれる新しい問題を調査することを提案 … 続きを読む
FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis
要約 制約のない唇から音声への合成は、頭のポーズや語彙に制限がなく、話している顔 … 続きを読む
Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization
要約 視聴覚表現は多くの下流のタスクに適用可能であることが証明されていますが、よ … 続きを読む
Finding Fallen Objects Via Asynchronous Audio-Visual Integration
要約 オブジェクトの外観と音の仕方は、その物理的特性を補完的に反映しています。 … 続きを読む
Expression-preserving face frontalization improves visually assisted speech processing
要約 顔の正面化とは、任意の角度から見た顔から、正面から見た顔を合成することであ … 続きを読む
VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices
要約 この論文では、人間の顔と声を含むビデオの唇と声の同期の問題に対処します。 … 続きを読む
Show Me Your Face, And I’ll Tell You How You Speak
要約 私たちが話すとき、韻律とスピーチの内容は私たちの唇の動きから推測することが … 続きを読む
Incorporating Voice Instructions in Model-Based Reinforcement Learning for Self-Driving Cars
要約 このペーパーでは、自動運転車をトレーニングする際に、自然言語の音声命令をサ … 続きを読む