「cs.SD」カテゴリーアーカイブ

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

投稿日: 2022年9月2日作成者: jarxiv

要約この作業では、野生の任意の話者のサイレントリップビデオから音声を生成す … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Late multimodal fusion for image and audio music transcription

投稿日: 2022年8月29日作成者: jarxiv

要約音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS, I.4 | コメントを受け付けていません

Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving Sounds

投稿日: 2022年8月29日作成者: jarxiv

要約視聴覚ナビゲーションは、視覚と聴覚を組み合わせて、マッピングされていない環 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Interpretable Multimodal Emotion Recognition using Hybrid Fusion of Speech and Image Data

投稿日: 2022年8月26日作成者: jarxiv

要約本稿では、音声発話と対応する画像によって表される感情を離散クラスに分類する … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Everything at Once — Multi-modal Fusion Transformer for Video Retrieval

投稿日: 2022年8月19日作成者: jarxiv

要約ビデオデータからのマルチモーダル学習は、ゼロショット検索や分類などのタ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation

投稿日: 2022年8月16日作成者: jarxiv

要約ビデオの音源をローカライズするために、オーディオビジュアル表現学習のための … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis

投稿日: 2022年8月15日作成者: jarxiv

要約このホワイトペーパーでは、MuSe-Humor、MuSe-Reactio … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

Late multimodal fusion for image and audio music transcription

投稿日: 2022年8月15日作成者: jarxiv

要約音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS, I.4 | コメントを受け付けていません

An Intensity and Phase Stacked Analysis of Phase-OTDR System using Deep Transfer Learning and Recurrent Neural Networks

投稿日: 2022年8月9日作成者: jarxiv

要約分散型音響センサ（DAS）は、光ファイバに沿って様々な事象の信号を非常に高 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis

投稿日: 2022年8月8日作成者: jarxiv

要約本論文では，MuSe-Humor, MuSe-Reaction, MuSe … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

Late multimodal fusion for image and audio music transcription

Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving Sounds

Interpretable Multimodal Emotion Recognition using Hybrid Fusion of Speech and Image Data

Everything at Once — Multi-modal Fusion Transformer for Video Retrieval

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation

Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis

Late multimodal fusion for image and audio music transcription

An Intensity and Phase Stacked Analysis of Phase-OTDR System using Deep Transfer Learning and Recurrent Neural Networks

Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis

最近の投稿

最近のコメント

アーカイブ

カテゴリー