-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Distributed collaborative anomalous sound detection by embedding sharing
要約 機械音監視システムを開発するために、異常音を検出する手法が提案されている。 … 続きを読む
A unified front-end framework for English text-to-speech synthesis
要約 フロントエンドは英語音声合成 (TTS) システムの重要なコンポーネントで … 続きを読む
As Good As A Coin Toss Human detection of AI-generated images, videos, audio, and audiovisual stimuli
要約 合成メディアが徐々に現実味を増し、その使用の障壁が低くなり続けるにつれて、 … 続きを読む
Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech
要約 テキスト言語モデルは、適切に定式化された指示が提供された場合、目に見えない … 続きを読む
MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition
要約 顕著な進歩にもかかわらず、音声感情認識 (SER) は、特に野生の世界では … 続きを読む
Unimodal Multi-Task Fusion for Emotional Mimicry Prediction
要約 この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む
CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds
要約 この論文では、乳児の泣き声にラベルを付けたコレクションである Ubenwa … 続きを読む
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception
要約 音声認識および翻訳システムは、現実の環境では頻繁に発生するノイズの多い入力 … 続きを読む
Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton
要約 この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む
Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation
要約 この論文では、第 6 回野生感情行動分析 (ABAW) コンペティションの … 続きを読む