「eess.AS」カテゴリーアーカイブ

Learning Audio-Visual embedding for Person Verification in the Wild

投稿日: 2022年10月27日作成者: jarxiv

要約オーディオビジュアルの埋め込みは、個人の検証において単一モダリティの埋め込 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Play It Back: Iterative Attention for Audio Recognition

投稿日: 2022年10月21日作成者: jarxiv

要約聴覚認知の重要な機能は、特徴的な音とそれに対応するセマンティクスを経時的に … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization

投稿日: 2022年10月17日作成者: jarxiv

要約このレポートでは、Ego4D チャレンジ 2022 のオーディオビジュア … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors

投稿日: 2022年10月14日作成者: jarxiv

要約このホワイトペーパーの目的は、「実際の」一般的なビデオの視聴覚同期です。 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Deepfake audio detection by speaker verification

投稿日: 2022年9月29日作成者: jarxiv

要約最近の深層学習の進歩のおかげで、今日では非常にリアルな合成音声を生成する高 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results

投稿日: 2022年9月29日作成者: jarxiv

要約ユーモアは、人間の感情と認識の重要な要素です。その自動理解は、より自然な … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Multi-encoder attention-based architectures for sound recognition with partial visual assistance

投稿日: 2022年9月27日作成者: jarxiv

要約大規模な音声認識データセットは通常、マルチメディアライブラリから取得し … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

AutoLV: Automatic Lecture Video Generator

投稿日: 2022年9月20日作成者: jarxiv

要約注釈付きスライド、講師の参照音声、講師の参照ポートレートビデオから直接、 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video

投稿日: 2022年9月15日作成者: jarxiv

要約オーディオビジュアル自動音声認識 (AV-ASR) は、追加の情報源として … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Binaural Signal Representations for Joint Sound Event Detection and Acoustic Scene Classification

投稿日: 2022年9月14日作成者: jarxiv

要約サウンドイベント検出 (SED) と音響シーン分類 (ASC) は、音響 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Learning Audio-Visual embedding for Person Verification in the Wild

Play It Back: Iterative Attention for Audio Recognition

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization

Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors

Deepfake audio detection by speaker verification

Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results

Multi-encoder attention-based architectures for sound recognition with partial visual assistance

AutoLV: Automatic Lecture Video Generator

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video

Binaural Signal Representations for Joint Sound Event Detection and Acoustic Scene Classification

最近の投稿

最近のコメント

アーカイブ

カテゴリー