-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound
要約 テキストからビデオへの長距離検索のためのオーディオビジュアル手法を紹介しま … 続きを読む
Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks
要約 無料で利用できる使いやすいオーディオ編集ツールを使用すると、オーディオのス … 続きを読む
End-To-End Audiovisual Feature Fusion for Active Speaker Detection
要約 アクティブスピーカー検出は、人間と機械の相互作用において重要な役割を果たし … 続きを読む
VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer
要約 このホワイトペーパーでは、音声と歌声の2つのシナリオで、低遅延で最先端の結 … 続きを読む
Quantized GAN for Complex Music Generation from Dance Videos
要約 Dance2Music-GAN(D2M-GAN)は、ダンスビデオを条件とし … 続きを読む
Position Prediction as an Effective Pretraining Strategy
要約 トランスフォーマーは、その強力な表現能力により、自然言語処理(NLP)、コ … 続きを読む
A Single Self-Supervised Model for Many Speech Modalities Enables Zero-Shot Modality Transfer
要約 視聴覚音声モデルは、音声のみのモデルと比較して優れたパフォーマンスと堅牢性 … 続きを読む
Audio-Visual Segmentation
要約 視聴覚セグメンテーション(AVS)と呼ばれる新しい問題を調査することを提案 … 続きを読む
FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis
要約 制約のない唇から音声への合成は、頭のポーズや語彙に制限がなく、話している顔 … 続きを読む
Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization
要約 視聴覚表現は多くの下流のタスクに適用可能であることが証明されていますが、よ … 続きを読む