-
最近の投稿
- Human2Robot: Learning Robot Actions from Paired Human-Robot Videos
- Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving
- Improving Monocular Visual-Inertial Initialization with Structureless Visual-Inertial Bundle Adjustment
- MetaSym: A Symplectic Meta-learning Framework for Physical Intelligence
- Phase-Independent Dynamic Movement Primitives With Applications to Human-Robot Co-manipulation and Time Optimal Planning
-
最近のコメント
表示できるコメントはありません。 cs.AI (34175) cs.CL (25835) cs.CR (2628) cs.CV (40083) cs.LG (39169) cs.RO (19945) cs.SY (3034) eess.IV (4770) eess.SY (3028) stat.ML (5169)
「eess.AS」カテゴリーアーカイブ
Speech Foundation Models and Crowdsourcing for Efficient, High-Quality Data Collection
要約 クラウドソーシングは音声データの収集を容易にし、拡張するための確立されたソ … 続きを読む
autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks
要約 この研究では、コンピューターオーディションタスク用の新しい深層学習トレーニ … 続きを読む
SonicBoom: Contact Localization Using Array of Microphones
要約 農業環境など、視覚センサーが重度の遮蔽に遭遇する乱雑な環境では、触覚信号は … 続きを読む
Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models
要約 音声質問応答 (AQA) タスクには、音声イベント分類、音声キャプション、 … 続きを読む
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models
要約 前回の研究では、教師付き離散音声トークンに基づく多言語音声合成モデルである … 続きを読む
Learned Compression for Compressed Learning
要約 最新のセンサーは、ますます豊富な高解像度データのストリームを生成します。 … 続きを読む
Missing Melodies: AI Music Generation and its ‘Nearly’ Complete Omission of the Global South
要約 生成 AI の最近の進歩により、音楽生成に対する新たな関心と可能性が広がり … 続きを読む
Audios Don’t Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection
要約 人工知能技術の急速な発展に伴い、オーディオ分野でのディープフェイク技術の適 … 続きを読む
Watermarking Training Data of Music Generation Models
要約 生成人工知能 (Gen-AI) モデルは、テキスト、画像、オーディオなどの … 続きを読む
EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations
要約 テキスト読み上げ (TTS) テクノロジーの進歩により、生成される音声の品 … 続きを読む