eess.AS」カテゴリーアーカイブ

Deepfake audio detection by speaker verification

要約 最近の深層学習の進歩のおかげで、今日では非常にリアルな合成音声を生成する高 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Deepfake audio detection by speaker verification はコメントを受け付けていません

Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results

要約 ユーモアは、人間の感情と認識の重要な要素です。 その自動理解は、より自然な … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results はコメントを受け付けていません

Multi-encoder attention-based architectures for sound recognition with partial visual assistance

要約 大規模な音声認識データ セットは通常、マルチメディア ライブラリから取得し … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Multi-encoder attention-based architectures for sound recognition with partial visual assistance はコメントを受け付けていません

AutoLV: Automatic Lecture Video Generator

要約 注釈付きスライド、講師の参照音声、講師の参照ポートレート ビデオから直接、 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | AutoLV: Automatic Lecture Video Generator はコメントを受け付けていません

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video

要約 オーディオビジュアル自動音声認識 (AV-ASR) は、追加の情報源として … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video はコメントを受け付けていません

Binaural Signal Representations for Joint Sound Event Detection and Acoustic Scene Classification

要約 サウンド イベント検出 (SED) と音響シーン分類 (ASC) は、音響 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Binaural Signal Representations for Joint Sound Event Detection and Acoustic Scene Classification はコメントを受け付けていません

Estimating Visual Information From Audio Through Manifold Learning

要約 オーディオ信号のみを使用してシーンに関する視覚情報を抽出するための新しいフ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Estimating Visual Information From Audio Through Manifold Learning はコメントを受け付けていません

Learning Audio-Visual embedding for Wild Person Verification

要約 これらの 2 つのモダリティからオーディオビジュアル埋め込みを抽出して、人 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Learning Audio-Visual embedding for Wild Person Verification はコメントを受け付けていません

Video-Guided Curriculum Learning for Spoken Video Grounding

要約 このホワイト ペーパーでは、新しいタスクである音声ビデオ グラウンディング … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Video-Guided Curriculum Learning for Spoken Video Grounding はコメントを受け付けていません

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

要約 この作業では、野生の任意の話者のサイレント リップ ビデオから音声を生成す … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild はコメントを受け付けていません