-
最近の投稿
- Predicting center of mass position in non-cyclic activities: The influence of acceleration, prediction horizon, and ground reaction forces
- Are Transformers Truly Foundational for Robotics?
- Performance Evaluation of Deep Learning-Based State Estimation: A Comparative Study of KalmanNet
- Performance Assessment of Lidar Odometry Frameworks: A Case Study at the Australian Botanic Garden Mount Annan
- VLM-Social-Nav: Socially Aware Robot Navigation through Scoring using Vision-Language Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (30189) cs.CL (22805) cs.CR (2340) cs.CV (36561) cs.LG (35013) cs.RO (17553) cs.SY (2697) eess.IV (4453) eess.SY (2691) stat.ML (4664)
「eess.AS」カテゴリーアーカイブ
On the Impact of Voice Anonymization on Speech Diagnostic Applications: a Case Study on COVID-19 Detection
要約 深層学習の進歩に伴い、パーソナル アシスタント、感情コンピューティング、遠 … 続きを読む
AND: Audio Network Dissection for Interpreting Deep Acoustic Models
要約 ニューロンレベルの解釈は、特定の知覚または構造入力パターンに応答するニュー … 続きを読む
WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database
要約 海洋哺乳類のコミュニケーションは複雑な分野であり、発声の多様性や環境要因に … 続きを読む
Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model
要約 多言語の自動歌詞転写 (ALT) は、多言語の自動音声認識と比較して、利用 … 続きを読む
This Paper Had the Smartest Reviewers — Flattery Detection Utilising an Audio-Textual Transformer-Based Approach
要約 お世辞は人間のコミュニケーションの重要な側面であり、戦略的な褒め言葉や賞賛 … 続きを読む
Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing
要約 離散音声トークン化に関する最近の研究により、音声認識、テキストから音声への … 続きを読む
Soundify: Matching Sound Effects to Video
要約 ビデオ編集の分野では、サウンドはオブジェクトに個性を加え、視聴者を空間に没 … 続きを読む
Towards Zero-Shot Text-To-Speech for Arabic Dialects
要約 ゼロショット マルチスピーカー テキスト読み上げ (ZS-TTS) システ … 続きを読む
Children’s Speech Recognition through Discrete Token Enhancement
要約 子供の音声認識は、主に公的に利用可能なデータが不足しているため、リソースが … 続きを読む
Towards Zero-Shot Text-To-Speech for Arabic Dialects
要約 ゼロショット マルチスピーカー テキスト読み上げ (ZS-TTS) システ … 続きを読む