-
最近の投稿
- Predicting center of mass position in non-cyclic activities: The influence of acceleration, prediction horizon, and ground reaction forces
- Are Transformers Truly Foundational for Robotics?
- Performance Evaluation of Deep Learning-Based State Estimation: A Comparative Study of KalmanNet
- Performance Assessment of Lidar Odometry Frameworks: A Case Study at the Australian Botanic Garden Mount Annan
- VLM-Social-Nav: Socially Aware Robot Navigation through Scoring using Vision-Language Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (30189) cs.CL (22805) cs.CR (2340) cs.CV (36561) cs.LG (35013) cs.RO (17553) cs.SY (2697) eess.IV (4453) eess.SY (2691) stat.ML (4664)
「eess.AS」カテゴリーアーカイブ
Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper
要約 この研究では、プロンプトの情報が高性能音声認識モデル Whisper とど … 続きを読む
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
Frieren: Efficient Video-to-Audio Generation with Rectified Flow Matching
要約 ビデオ – オーディオ (V2A) 生成は、サイレント ビデオ … 続きを読む
Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results
要約 ユーモアは人間の社会的行動、感情、認知の重要な要素です。 その自動理解によ … 続きを読む
Multitaper mel-spectrograms for keyword spotting
要約 キーワードスポッティング(KWS)は、特徴表現の品質に最も敏感な音声認識タ … 続きを読む
Romanization Encoding For Multilingual ASR
要約 多言語およびコードスイッチング自動音声認識(ASR)システムを最適化するた … 続きを読む
TokenVerse: Unifying Speech and NLP Tasks via Transducer-based ASR
要約 従来の音声からの会話インテリジェンスでは、カスケード・パイプラインが使用さ … 続きを読む
Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models
要約 音声認識ベースの柔軟なシステムや、音声プロンプト付きの大規模言語モデル(L … 続きを読む
Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect
要約 自己教師あり学習(SSL)によって事前に学習された音声エンコーダは、音声言 … 続きを読む
Written Term Detection Improves Spoken Term Detection
要約 キーワード検索(KWS)に対するエンドツーエンド(E2E)アプローチは、自 … 続きを読む