cs.SD」カテゴリーアーカイブ

As Good As A Coin Toss Human detection of AI-generated images, videos, audio, and audiovisual stimuli

要約 合成メディアが徐々に現実味を増し、その使用の障壁が低くなり続けるにつれて、 … 続きを読む

カテゴリー: 68T01, cs.AI, cs.HC, cs.SD, eess.AS, I.2 | As Good As A Coin Toss Human detection of AI-generated images, videos, audio, and audiovisual stimuli はコメントを受け付けていません

Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech

要約 テキスト言語モデルは、適切に定式化された指示が提供された場合、目に見えない … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech はコメントを受け付けていません

MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition

要約 顕著な進歩にもかかわらず、音声感情認識 (SER) は、特に野生の世界では … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition はコメントを受け付けていません

Unimodal Multi-Task Fusion for Emotional Mimicry Prediction

要約 この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Unimodal Multi-Task Fusion for Emotional Mimicry Prediction はコメントを受け付けていません

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

要約 この論文では、乳児の泣き声にラベルを付けたコレクションである Ubenwa … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds はコメントを受け付けていません

XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception

要約 音声認識および翻訳システムは、現実の環境では頻繁に発生するノイズの多い入力 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception はコメントを受け付けていません

Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton

要約 この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton はコメントを受け付けていません

Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation

要約 この論文では、第 6 回野生感情行動分析 (ABAW) コンペティションの … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation はコメントを受け付けていません

LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech

要約 自己教師あり学習 (SSL) は、コンピューター ビジョンや自然言語処理な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech はコメントを受け付けていません

A Comprehensive Evaluation of Augmentations for Robust OOD Self-Supervised Contrastive Phonocardiogram Representation Learning

要約 最近の研究活動の増加にもかかわらず、深層学習モデルは医療などのいくつかの実 … 続きを読む

カテゴリー: cs.LG, cs.SD, q-bio.QM | A Comprehensive Evaluation of Augmentations for Robust OOD Self-Supervised Contrastive Phonocardiogram Representation Learning はコメントを受け付けていません