「cs.SD」カテゴリーアーカイブ

MarginNCE: Robust Sound Localization with a Negative Margin

投稿日: 2022年11月4日作成者: jarxiv

要約本研究の目的は、自己教師付きアプローチにより、視覚的シーンにおける音源の位 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

No-audio speaking status detection in crowded settings via visual pose-based filtering and wearable acceleration

投稿日: 2022年11月2日作成者: jarxiv

要約混雑したシーンで誰が話しているかを認識することは、内部で行われている社会的 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Combining Automatic Speaker Verification and Prosody Analysis for Synthetic Speech Detection

投稿日: 2022年11月1日作成者: jarxiv

要約メディアコンテンツ合成技術の急速な普及と、オーディオとビデオのディープフ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Multimodal Exponentially Modified Gaussian Oscillators

投稿日: 2022年10月31日作成者: jarxiv

要約音響モデリングは、ノイズ除去、データ再構築、モデルベースのテスト、分類など … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS, physics.app-ph | コメントを受け付けていません

Multimodal Transformer Distillation for Audio-Visual Synchronization

投稿日: 2022年10月28日作成者: jarxiv

要約視聴覚同期は、ビデオ内の口の動きと音声が同期しているかどうかを判断すること … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.SD, eess.AS | コメントを受け付けていません

Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input

投稿日: 2022年10月27日作成者: jarxiv

要約 Masked Autoencoders は、シンプルでありながら強力な自己 … 続きを読む →

カテゴリー: 68T07, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

OWL (Observe, Watch, Listen): Audiovisual Temporal Context for Localizing Actions in Egocentric Videos

投稿日: 2022年10月27日作成者: jarxiv

要約自己中心的なビデオは、一人称視点から人間の活動のシーケンスをキャプチャし、 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Learning Audio-Visual embedding for Person Verification in the Wild

投稿日: 2022年10月27日作成者: jarxiv

要約オーディオビジュアルの埋め込みは、個人の検証において単一モダリティの埋め込 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Play It Back: Iterative Attention for Audio Recognition

投稿日: 2022年10月21日作成者: jarxiv

要約聴覚認知の重要な機能は、特徴的な音とそれに対応するセマンティクスを経時的に … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization

投稿日: 2022年10月17日作成者: jarxiv

要約このレポートでは、Ego4D チャレンジ 2022 のオーディオビジュア … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

MarginNCE: Robust Sound Localization with a Negative Margin

No-audio speaking status detection in crowded settings via visual pose-based filtering and wearable acceleration

Combining Automatic Speaker Verification and Prosody Analysis for Synthetic Speech Detection

Multimodal Exponentially Modified Gaussian Oscillators

Multimodal Transformer Distillation for Audio-Visual Synchronization

Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input

OWL (Observe, Watch, Listen): Audiovisual Temporal Context for Localizing Actions in Egocentric Videos

Learning Audio-Visual embedding for Person Verification in the Wild

Play It Back: Iterative Attention for Audio Recognition

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization

最近の投稿

最近のコメント

アーカイブ

カテゴリー