eess.AS」カテゴリーアーカイブ

A Multimodal Approach for Dementia Detection from Spontaneous Speech with Tensor Fusion Layer

要約 アルツハイマー病(AD)は進行性の神経疾患であり、長年にわたって徐々に症状 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | A Multimodal Approach for Dementia Detection from Spontaneous Speech with Tensor Fusion Layer はコメントを受け付けていません

SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker Embedding and Vision Transformers

要約 近年、音声感情認識(SER)は、音声信号をスペクトログラムに変換し、一般的 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker Embedding and Vision Transformers はコメントを受け付けていません

Artificial Intelligence for Suicide Assessment using Audiovisual Cues: A Review

要約 自殺による死亡は、世界第7位の死因である。近年の人工知能(AI)の進歩、特 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY, cs.HC, cs.LG, cs.SD, eess.AS | Artificial Intelligence for Suicide Assessment using Audiovisual Cues: A Review はコメントを受け付けていません

MarginNCE: Robust Sound Localization with a Negative Margin

要約 本研究の目的は、自己教師付きアプローチにより、視覚的シーンにおける音源の位 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | MarginNCE: Robust Sound Localization with a Negative Margin はコメントを受け付けていません

No-audio speaking status detection in crowded settings via visual pose-based filtering and wearable acceleration

要約 混雑したシーンで誰が話しているかを認識することは、内部で行われている社会的 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | No-audio speaking status detection in crowded settings via visual pose-based filtering and wearable acceleration はコメントを受け付けていません

Combining Automatic Speaker Verification and Prosody Analysis for Synthetic Speech Detection

要約 メディア コンテンツ合成技術の急速な普及と、オーディオとビデオのディープフ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Combining Automatic Speaker Verification and Prosody Analysis for Synthetic Speech Detection はコメントを受け付けていません

Multimodal Exponentially Modified Gaussian Oscillators

要約 音響モデリングは、ノイズ除去、データ再構築、モデルベースのテスト、分類など … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS, physics.app-ph | Multimodal Exponentially Modified Gaussian Oscillators はコメントを受け付けていません

Multimodal Transformer Distillation for Audio-Visual Synchronization

要約 視聴覚同期は、ビデオ内の口の動きと音声が同期しているかどうかを判断すること … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.SD, eess.AS | Multimodal Transformer Distillation for Audio-Visual Synchronization はコメントを受け付けていません

Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input

要約 Masked Autoencoders は、シンプルでありながら強力な自己 … 続きを読む

カテゴリー: 68T07, cs.CV, cs.LG, cs.SD, eess.AS | Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input はコメントを受け付けていません

OWL (Observe, Watch, Listen): Audiovisual Temporal Context for Localizing Actions in Egocentric Videos

要約 自己中心的なビデオは、一人称視点から人間の活動のシーケンスをキャプチャし、 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | OWL (Observe, Watch, Listen): Audiovisual Temporal Context for Localizing Actions in Egocentric Videos はコメントを受け付けていません