eess.AS」カテゴリーアーカイブ

Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization

要約 視聴覚表現は多くの下流のタスクに適用可能であることが証明されていますが、よ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization はコメントを受け付けていません

Finding Fallen Objects Via Asynchronous Audio-Visual Integration

要約 オブジェクトの外観と音の仕方は、その物理的特性を補完的に反映しています。 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO, cs.SD, eess.AS | Finding Fallen Objects Via Asynchronous Audio-Visual Integration はコメントを受け付けていません

Expression-preserving face frontalization improves visually assisted speech processing

要約 顔の正面化とは、任意の角度から見た顔から、正面から見た顔を合成することであ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Expression-preserving face frontalization improves visually assisted speech processing はコメントを受け付けていません

VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices

要約 この論文では、人間の顔と声を含むビデオの唇と声の同期の問題に対処します。 … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.SD, eess.AS | VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices はコメントを受け付けていません

Show Me Your Face, And I’ll Tell You How You Speak

要約 私たちが話すとき、韻律とスピーチの内容は私たちの唇の動きから推測することが … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS, eess.IV | Show Me Your Face, And I’ll Tell You How You Speak はコメントを受け付けていません

Incorporating Voice Instructions in Model-Based Reinforcement Learning for Self-Driving Cars

要約 このペーパーでは、自動運転車をトレーニングする際に、自然言語の音声命令をサ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.HC, cs.LG, cs.SD, eess.AS | Incorporating Voice Instructions in Model-Based Reinforcement Learning for Self-Driving Cars はコメントを受け付けていません

Rethinking Audio-visual Synchronization for Active Speaker Detection

要約 アクティブスピーカー検出(ASD)システムは、マルチトーカーの会話を分析す … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Rethinking Audio-visual Synchronization for Active Speaker Detection はコメントを受け付けていません

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

要約 3D環境向けのオンザフライのジオメトリベースのオーディオレンダリング用のプ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning はコメントを受け付けていません

VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection

要約 この作品の目標は、静かに話す顔のビデオからスピーチを再構築することです。 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection はコメントを受け付けていません

AVATAR: Unconstrained Audiovisual Speech Recognition

要約 視聴覚自動音声認識(AV-ASR)は、ASRの拡張機能であり、多くの場合、 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | AVATAR: Unconstrained Audiovisual Speech Recognition はコメントを受け付けていません