eess.AS」カテゴリーアーカイブ

Estimating Visual Information From Audio Through Manifold Learning

要約 オーディオ信号のみを使用してシーンに関する視覚情報を抽出するための新しいフ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Estimating Visual Information From Audio Through Manifold Learning はコメントを受け付けていません

Learning Audio-Visual embedding for Wild Person Verification

要約 これらの 2 つのモダリティからオーディオビジュアル埋め込みを抽出して、人 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Learning Audio-Visual embedding for Wild Person Verification はコメントを受け付けていません

Video-Guided Curriculum Learning for Spoken Video Grounding

要約 このホワイト ペーパーでは、新しいタスクである音声ビデオ グラウンディング … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Video-Guided Curriculum Learning for Spoken Video Grounding はコメントを受け付けていません

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

要約 この作業では、野生の任意の話者のサイレント リップ ビデオから音声を生成す … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild はコメントを受け付けていません

Late multimodal fusion for image and audio music transcription

要約 音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS, I.4 | Late multimodal fusion for image and audio music transcription はコメントを受け付けていません

Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving Sounds

要約 視聴覚ナビゲーションは、視覚と聴覚を組み合わせて、マッピングされていない環 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO, cs.SD, eess.AS | Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving Sounds はコメントを受け付けていません

Interpretable Multimodal Emotion Recognition using Hybrid Fusion of Speech and Image Data

要約 本稿では、音声発話と対応する画像によって表される感情を離散クラスに分類する … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Interpretable Multimodal Emotion Recognition using Hybrid Fusion of Speech and Image Data はコメントを受け付けていません

In-Air Imaging Sonar Sensor Network with Real-Time Processing Using GPUs

要約 自律航法やロボットへの応用では、環境を正しく感知することが重要です。 この … 続きを読む

カテゴリー: cs.CV, cs.NI, eess.AS | In-Air Imaging Sonar Sensor Network with Real-Time Processing Using GPUs はコメントを受け付けていません

StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation

要約 StyleTalker は、正確にオーディオ同期された唇の形、リアルな頭の … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.AS, eess.IV | StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation はコメントを受け付けていません

Everything at Once — Multi-modal Fusion Transformer for Video Retrieval

要約 ビデオ データからのマルチモーダル学習は、ゼロ ショット検索や分類などのタ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Everything at Once — Multi-modal Fusion Transformer for Video Retrieval はコメントを受け付けていません