「cs.SD」カテゴリーアーカイブ

Distributed collaborative anomalous sound detection by embedding sharing

投稿日: 2024年3月26日作成者: jarxiv

要約機械音監視システムを開発するために、異常音を検出する手法が提案されている。 … 続きを読む →

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

A unified front-end framework for English text-to-speech synthesis

投稿日: 2024年3月26日作成者: jarxiv

要約フロントエンドは英語音声合成 (TTS) システムの重要なコンポーネントで … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

As Good As A Coin Toss Human detection of AI-generated images, videos, audio, and audiovisual stimuli

投稿日: 2024年3月26日作成者: jarxiv

要約合成メディアが徐々に現実味を増し、その使用の障壁が低くなり続けるにつれて、 … 続きを読む →

カテゴリー: 68T01, cs.AI, cs.HC, cs.SD, eess.AS, I.2 | コメントを受け付けていません

Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech

投稿日: 2024年3月25日作成者: jarxiv

要約テキスト言語モデルは、適切に定式化された指示が提供された場合、目に見えない … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition

投稿日: 2024年3月25日作成者: jarxiv

要約顕著な進歩にもかかわらず、音声感情認識 (SER) は、特に野生の世界では … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Unimodal Multi-Task Fusion for Emotional Mimicry Prediction

投稿日: 2024年3月25日作成者: jarxiv

要約この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

投稿日: 2024年3月24日作成者: jarxiv

要約この論文では、乳児の泣き声にラベルを付けたコレクションである Ubenwa … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception

投稿日: 2024年3月22日作成者: jarxiv

要約音声認識および翻訳システムは、現実の環境では頻繁に発生するノイズの多い入力 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton

投稿日: 2024年3月22日作成者: jarxiv

要約この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation

投稿日: 2024年3月20日作成者: jarxiv

要約この論文では、第 6 回野生感情行動分析 (ABAW) コンペティションの … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Distributed collaborative anomalous sound detection by embedding sharing

A unified front-end framework for English text-to-speech synthesis

As Good As A Coin Toss Human detection of AI-generated images, videos, audio, and audiovisual stimuli

Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech

MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition

Unimodal Multi-Task Fusion for Emotional Mimicry Prediction

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception

Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton

Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation

最近の投稿

最近のコメント

アーカイブ

カテゴリー