「eess.AS」カテゴリーアーカイブ

Estimating Visual Information From Audio Through Manifold Learning

投稿日: 2022年9月14日作成者: jarxiv

要約オーディオ信号のみを使用してシーンに関する視覚情報を抽出するための新しいフ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Learning Audio-Visual embedding for Wild Person Verification

投稿日: 2022年9月12日作成者: jarxiv

要約これらの 2 つのモダリティからオーディオビジュアル埋め込みを抽出して、人 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Video-Guided Curriculum Learning for Spoken Video Grounding

投稿日: 2022年9月2日作成者: jarxiv

要約このホワイトペーパーでは、新しいタスクである音声ビデオグラウンディング … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

投稿日: 2022年9月2日作成者: jarxiv

要約この作業では、野生の任意の話者のサイレントリップビデオから音声を生成す … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Late multimodal fusion for image and audio music transcription

投稿日: 2022年8月29日作成者: jarxiv

要約音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS, I.4 | コメントを受け付けていません

Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving Sounds

投稿日: 2022年8月29日作成者: jarxiv

要約視聴覚ナビゲーションは、視覚と聴覚を組み合わせて、マッピングされていない環 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Interpretable Multimodal Emotion Recognition using Hybrid Fusion of Speech and Image Data

投稿日: 2022年8月26日作成者: jarxiv

要約本稿では、音声発話と対応する画像によって表される感情を離散クラスに分類する … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

In-Air Imaging Sonar Sensor Network with Real-Time Processing Using GPUs

投稿日: 2022年8月24日作成者: jarxiv

要約自律航法やロボットへの応用では、環境を正しく感知することが重要です。この … 続きを読む →

カテゴリー: cs.CV, cs.NI, eess.AS | コメントを受け付けていません

StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation

投稿日: 2022年8月24日作成者: jarxiv

要約 StyleTalker は、正確にオーディオ同期された唇の形、リアルな頭の … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.AS, eess.IV | コメントを受け付けていません

Everything at Once — Multi-modal Fusion Transformer for Video Retrieval

投稿日: 2022年8月19日作成者: jarxiv

要約ビデオデータからのマルチモーダル学習は、ゼロショット検索や分類などのタ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Estimating Visual Information From Audio Through Manifold Learning

Learning Audio-Visual embedding for Wild Person Verification

Video-Guided Curriculum Learning for Spoken Video Grounding

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

Late multimodal fusion for image and audio music transcription

Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving Sounds

Interpretable Multimodal Emotion Recognition using Hybrid Fusion of Speech and Image Data

In-Air Imaging Sonar Sensor Network with Real-Time Processing Using GPUs

StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation

Everything at Once — Multi-modal Fusion Transformer for Video Retrieval

最近の投稿

最近のコメント

アーカイブ

カテゴリー