「eess.AS」カテゴリーアーカイブ

Rethinking Audio-visual Synchronization for Active Speaker Detection

投稿日: 2022年6月22日作成者: jarxiv

要約アクティブスピーカー検出（ASD）システムは、マルチトーカーの会話を分析す … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

投稿日: 2022年6月17日作成者: jarxiv

要約 3D環境向けのオンザフライのジオメトリベースのオーディオレンダリング用のプ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection

投稿日: 2022年6月16日作成者: jarxiv

要約この作品の目標は、静かに話す顔のビデオからスピーチを再構築することです。 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

AVATAR: Unconstrained Audiovisual Speech Recognition

投稿日: 2022年6月16日作成者: jarxiv

要約視聴覚自動音声認識（AV-ASR）は、ASRの拡張機能であり、多くの場合、 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

General-purpose, long-context autoregressive modeling with Perceiver AR

投稿日: 2022年6月15日作成者: jarxiv

要約実世界のデータは高次元です。本、画像、または音楽のパフォーマンスには、圧縮 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Learning Speaker-specific Lip-to-Speech Generation

投稿日: 2022年6月12日作成者: jarxiv

要約唇の動きを理解し、それからスピーチを推測することは、一般の人にとって悪名高 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

M2FNet: Multi-modal Fusion Network for Emotion Recognition in Conversation

投稿日: 2022年6月12日作成者: jarxiv

要約会話における感情認識（ERC）は、交感神経の人間と機械の相互作用を発達させ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Canonical Cortical Graph Neural Networks and its Application for Speech Enhancement in Future Audio-Visual Hearing Aids

投稿日: 2022年6月12日作成者: jarxiv

要約近年の機械学習アルゴリズムの成功にもかかわらず、これらのモデルの多くは、マ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

FedNST: Federated Noisy Student Training for Automatic Speech Recognition

投稿日: 2022年6月12日作成者: jarxiv

要約 Federated Learning (FL) は、分散システムにおいて、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.DC, cs.LG, eess.AS, I.2.11 | コメントを受け付けていません

Few-Shot Audio-Visual Learning of Environment Acoustics

投稿日: 2022年6月12日作成者: jarxiv

要約ルームインパルス応答（RIR）関数は、周囲の物理環境がリスナーに聞こえる音 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Rethinking Audio-visual Synchronization for Active Speaker Detection

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection

AVATAR: Unconstrained Audiovisual Speech Recognition

General-purpose, long-context autoregressive modeling with Perceiver AR

Learning Speaker-specific Lip-to-Speech Generation

M2FNet: Multi-modal Fusion Network for Emotion Recognition in Conversation

Canonical Cortical Graph Neural Networks and its Application for Speech Enhancement in Future Audio-Visual Hearing Aids

FedNST: Federated Noisy Student Training for Automatic Speech Recognition

Few-Shot Audio-Visual Learning of Environment Acoustics

最近の投稿

最近のコメント

アーカイブ

カテゴリー