-
最近の投稿
- Human2Robot: Learning Robot Actions from Paired Human-Robot Videos
- Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving
- Improving Monocular Visual-Inertial Initialization with Structureless Visual-Inertial Bundle Adjustment
- MetaSym: A Symplectic Meta-learning Framework for Physical Intelligence
- Phase-Independent Dynamic Movement Primitives With Applications to Human-Robot Co-manipulation and Time Optimal Planning
-
最近のコメント
表示できるコメントはありません。 cs.AI (34175) cs.CL (25835) cs.CR (2628) cs.CV (40083) cs.LG (39169) cs.RO (19945) cs.SY (3034) eess.IV (4770) eess.SY (3028) stat.ML (5169)
「eess.AS」カテゴリーアーカイブ
Watermarking Training Data of Music Generation Models
要約 生成人工知能 (Gen-AI) モデルは、テキスト、画像、オーディオなどの … 続きを読む
A Preliminary Analysis of Automatic Word and Syllable Prominence Detection in Non-Native Speech With Text-to-Speech Prosody Embeddings
要約 単語および音節レベルでのプロミネンスの自動検出は、コンピューター支援言語学 … 続きを読む
EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations
要約 テキスト読み上げ (TTS) テクノロジーの進歩により、生成される音声の品 … 続きを読む
VoiceBench: Benchmarking LLM-Based Voice Assistants
要約 大規模言語モデル (LLM) の成功に基づいて、GPT-4o などの最近の … 続きを読む
PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis
要約 任意の音声オーディオを使用したトーキングヘッド合成は、デジタル ヒューマン … 続きを読む
AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models
要約 大規模音声言語モデル (LALM) の最近の進歩により、音声ベースのユーザ … 続きを読む
AI TrackMate: Finally, Someone Who Will Give Your Music More Than Just ‘Sounds Great!’
要約 「ベッドルームプロデューサー」の台頭により、音楽制作が民主化される一方で、 … 続きを読む
Speech Robust Bench: A Robustness Benchmark For Speech Recognition
要約 自動音声認識 (ASR) モデルがますます普及するにつれて、物理世界とデジ … 続きを読む
EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations
要約 テキスト読み上げ (TTS) テクノロジーの進歩により、生成される音声の品 … 続きを読む