-
最近の投稿
- CHARM: Considering Human Attributes for Reinforcement Modeling
- IKDiffuser: Fast and Diverse Inverse Kinematics Solution Generation for Multi-arm Robotic Systems
- SuperPoint-SLAM3: Augmenting ORB-SLAM3 with Deep Features, Adaptive NMS, and Learning-Based Loop Closure
- Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System
- A Novel ViDAR Device With Visual Inertial Encoder Odometry and Reinforcement Learning-Based Active SLAM Method
-
最近のコメント
表示できるコメントはありません。 cs.AI (39747) cs.CL (30084) cs.CV (45067) cs.HC (3038) cs.LG (44680) cs.RO (23778) cs.SY (3623) eess.IV (5162) eess.SY (3615) stat.ML (5812)
「eess.AS」カテゴリーアーカイブ
Modality-Inconsistent Continual Learning of Multimodal Large Language Models
要約 このペーパーでは、一貫性のないモダリティ (画像、音声、またはビデオ) と … 続きを読む
Classification of Spontaneous and Scripted Speech for Multilingual Audio
要約 台本に書かれた発話と自発的な発話を区別することは、発話スタイルが音声処理研 … 続きを読む
Speech Foundation Models and Crowdsourcing for Efficient, High-Quality Data Collection
要約 クラウドソーシングは音声データの収集を容易にし、拡張するための確立されたソ … 続きを読む
autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks
要約 この研究では、コンピューターオーディションタスク用の新しい深層学習トレーニ … 続きを読む
SonicBoom: Contact Localization Using Array of Microphones
要約 農業環境など、視覚センサーが重度の遮蔽に遭遇する乱雑な環境では、触覚信号は … 続きを読む
Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models
要約 音声質問応答 (AQA) タスクには、音声イベント分類、音声キャプション、 … 続きを読む
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models
要約 前回の研究では、教師付き離散音声トークンに基づく多言語音声合成モデルである … 続きを読む
Learned Compression for Compressed Learning
要約 最新のセンサーは、ますます豊富な高解像度データのストリームを生成します。 … 続きを読む
Missing Melodies: AI Music Generation and its ‘Nearly’ Complete Omission of the Global South
要約 生成 AI の最近の進歩により、音楽生成に対する新たな関心と可能性が広がり … 続きを読む
Audios Don’t Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection
要約 人工知能技術の急速な発展に伴い、オーディオ分野でのディープフェイク技術の適 … 続きを読む