-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild
要約 この作業では、野生の任意の話者のサイレント リップ ビデオから音声を生成す … 続きを読む
Late multimodal fusion for image and audio music transcription
要約 音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む
Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving Sounds
要約 視聴覚ナビゲーションは、視覚と聴覚を組み合わせて、マッピングされていない環 … 続きを読む
Interpretable Multimodal Emotion Recognition using Hybrid Fusion of Speech and Image Data
要約 本稿では、音声発話と対応する画像によって表される感情を離散クラスに分類する … 続きを読む
Everything at Once — Multi-modal Fusion Transformer for Video Retrieval
要約 ビデオ データからのマルチモーダル学習は、ゼロ ショット検索や分類などのタ … 続きを読む
Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation
要約 ビデオの音源をローカライズするために、オーディオビジュアル表現学習のための … 続きを読む
Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis
要約 このホワイト ペーパーでは、MuSe-Humor、MuSe-Reactio … 続きを読む
Late multimodal fusion for image and audio music transcription
要約 音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む
An Intensity and Phase Stacked Analysis of Phase-OTDR System using Deep Transfer Learning and Recurrent Neural Networks
要約 分散型音響センサ(DAS)は、光ファイバに沿って様々な事象の信号を非常に高 … 続きを読む