-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「eess.AS」カテゴリーアーカイブ
Distributed collaborative anomalous sound detection by embedding sharing
要約 機械音監視システムを開発するために、異常音を検出する手法が提案されている。 … 続きを読む
A unified front-end framework for English text-to-speech synthesis
要約 フロントエンドは英語音声合成 (TTS) システムの重要なコンポーネントで … 続きを読む
As Good As A Coin Toss Human detection of AI-generated images, videos, audio, and audiovisual stimuli
要約 合成メディアが徐々に現実味を増し、その使用の障壁が低くなり続けるにつれて、 … 続きを読む
Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech
要約 テキスト言語モデルは、適切に定式化された指示が提供された場合、目に見えない … 続きを読む
MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition
要約 顕著な進歩にもかかわらず、音声感情認識 (SER) は、特に野生の世界では … 続きを読む
Unimodal Multi-Task Fusion for Emotional Mimicry Prediction
要約 この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む
CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds
要約 この論文では、乳児の泣き声にラベルを付けたコレクションである Ubenwa … 続きを読む
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception
要約 音声認識および翻訳システムは、現実の環境では頻繁に発生するノイズの多い入力 … 続きを読む
A Multimodal Approach to Device-Directed Speech Detection with Large Language Models
要約 仮想アシスタントとの対話は通常、事前定義されたトリガー フレーズで始まり、 … 続きを読む
Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton
要約 この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む