eess.AS」カテゴリーアーカイブ

Distributed collaborative anomalous sound detection by embedding sharing

要約 機械音監視システムを開発するために、異常音を検出する手法が提案されている。 … 続きを読む

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS | Distributed collaborative anomalous sound detection by embedding sharing はコメントを受け付けていません

A unified front-end framework for English text-to-speech synthesis

要約 フロントエンドは英語音声合成 (TTS) システムの重要なコンポーネントで … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A unified front-end framework for English text-to-speech synthesis はコメントを受け付けていません

As Good As A Coin Toss Human detection of AI-generated images, videos, audio, and audiovisual stimuli

要約 合成メディアが徐々に現実味を増し、その使用の障壁が低くなり続けるにつれて、 … 続きを読む

カテゴリー: 68T01, cs.AI, cs.HC, cs.SD, eess.AS, I.2 | As Good As A Coin Toss Human detection of AI-generated images, videos, audio, and audiovisual stimuli はコメントを受け付けていません

Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech

要約 テキスト言語モデルは、適切に定式化された指示が提供された場合、目に見えない … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech はコメントを受け付けていません

MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition

要約 顕著な進歩にもかかわらず、音声感情認識 (SER) は、特に野生の世界では … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition はコメントを受け付けていません

Unimodal Multi-Task Fusion for Emotional Mimicry Prediction

要約 この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Unimodal Multi-Task Fusion for Emotional Mimicry Prediction はコメントを受け付けていません

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

要約 この論文では、乳児の泣き声にラベルを付けたコレクションである Ubenwa … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds はコメントを受け付けていません

XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception

要約 音声認識および翻訳システムは、現実の環境では頻繁に発生するノイズの多い入力 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception はコメントを受け付けていません

A Multimodal Approach to Device-Directed Speech Detection with Large Language Models

要約 仮想アシスタントとの対話は通常、事前定義されたトリガー フレーズで始まり、 … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | A Multimodal Approach to Device-Directed Speech Detection with Large Language Models はコメントを受け付けていません

Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton

要約 この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton はコメントを受け付けていません