eess.AS」カテゴリーアーカイブ

ASiT: Audio Spectrogram vIsion Transformer for General Audio Representation

要約 もともと自然言語処理用に開発されたビジョン トランスフォーマーは、長期的な … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | ASiT: Audio Spectrogram vIsion Transformer for General Audio Representation はコメントを受け付けていません

Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input

要約 Masked Autoencoders は、シンプルでありながら強力な自己 … 続きを読む

カテゴリー: 68T07, cs.CV, cs.LG, cs.SD, eess.AS | Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input はコメントを受け付けていません

Listen, denoise, action! Audio-driven motion synthesis with diffusion models

要約 拡散モデルは、表現力が高く効率的にトレーニング可能な確率モデルとして関心が … 続きを読む

カテゴリー: 68T07, cs.CV, cs.GR, cs.HC, cs.LG, cs.SD, eess.AS, G.3 | Listen, denoise, action! Audio-driven motion synthesis with diffusion models はコメントを受け付けていません

FlowGrad: Using Motion for Visual Sound Source Localization

要約 視覚的な音源定位に関する最新の研究は、自己管理型の方法で学習されたセマンテ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | FlowGrad: Using Motion for Visual Sound Source Localization はコメントを受け付けていません

Investigating Modality Bias in Audio Visual Video Parsing

要約 オーディオとビジュアルのイベント ラベルを時間境界で検出することを含むオー … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Investigating Modality Bias in Audio Visual Video Parsing はコメントを受け付けていません

On the role of Lip Articulation in Visual Speech Perception

要約 オーディオからリアルな唇の動きを生成して音声生成をシミュレートすることは、 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | On the role of Lip Articulation in Visual Speech Perception はコメントを受け付けていません

A Multimodal Approach for Dementia Detection from Spontaneous Speech with Tensor Fusion Layer

要約 アルツハイマー病(AD)は進行性の神経疾患であり、長年にわたって徐々に症状 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | A Multimodal Approach for Dementia Detection from Spontaneous Speech with Tensor Fusion Layer はコメントを受け付けていません

SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker Embedding and Vision Transformers

要約 近年、音声感情認識(SER)は、音声信号をスペクトログラムに変換し、一般的 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker Embedding and Vision Transformers はコメントを受け付けていません

Artificial Intelligence for Suicide Assessment using Audiovisual Cues: A Review

要約 自殺による死亡は、世界第7位の死因である。近年の人工知能(AI)の進歩、特 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY, cs.HC, cs.LG, cs.SD, eess.AS | Artificial Intelligence for Suicide Assessment using Audiovisual Cues: A Review はコメントを受け付けていません

MarginNCE: Robust Sound Localization with a Negative Margin

要約 本研究の目的は、自己教師付きアプローチにより、視覚的シーンにおける音源の位 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | MarginNCE: Robust Sound Localization with a Negative Margin はコメントを受け付けていません