-
最近の投稿
- Predicting center of mass position in non-cyclic activities: The influence of acceleration, prediction horizon, and ground reaction forces
- Are Transformers Truly Foundational for Robotics?
- Performance Evaluation of Deep Learning-Based State Estimation: A Comparative Study of KalmanNet
- Performance Assessment of Lidar Odometry Frameworks: A Case Study at the Australian Botanic Garden Mount Annan
- VLM-Social-Nav: Socially Aware Robot Navigation through Scoring using Vision-Language Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (30189) cs.CL (22805) cs.CR (2340) cs.CV (36561) cs.LG (35013) cs.RO (17553) cs.SY (2697) eess.IV (4453) eess.SY (2691) stat.ML (4664)
「eess.AS」カテゴリーアーカイブ
Towards Robust Speech Representation Learning for Thousands of Languages
要約 自己教師あり学習 (SSL) は、ラベル付きデータの必要性を減らし、音声テ … 続きを読む
SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition
要約 オーディオビジュアル音声認識 (AVSR) は、自動音声認識 (ASR) … 続きを読む
Is one brick enough to break the wall of spoken dialogue state tracking?
要約 タスク指向対話 (TOD) システムでは、ユーザーの要求に対するシステムの … 続きを読む
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
Deep Active Audio Feature Learning in Resource-Constrained Environments
要約 ラベル付きデータが不足しているため、生体音響アプリケーションでのディープ … 続きを読む
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models
要約 現在の音声ディープフェイク検出器にとって一般化は主な問題であり、配布外のデ … 続きを読む
ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data
要約 音声信号は、ロボットの相互作用や接触による物体の特性に関する豊富な情報を提 … 続きを読む
Advancing Airport Tower Command Recognition: Integrating Squeeze-and-Excitation and Broadcasted Residual Learning
要約 パイロットは航空交通管制の指示に正確に従わなければならないため、航空コマン … 続きを読む
BESTOW: Efficient and Streamable Speech Language Model with the Best of Two Worlds in GPT and T5
要約 音声理解機能を事前トレーニングされた大規模言語モデルに組み込むことは、研究 … 続きを読む
Subtractive Training for Music Stem Insertion using Latent Diffusion Models
要約 私たちは、他の楽器をコンテキストとして与えられた個々の楽器のステムを合成す … 続きを読む