-
最近の投稿
- Automating eHMI Action Design with LLMs for Automated Vehicle Communication
- ManiTaskGen: A Comprehensive Task Generator for Benchmarking and Improving Vision-Language Agents on Embodied Decision-Making
- Map Space Belief Prediction for Manipulation-Enhanced Mapping
- Interactive OT Gym: A Reinforcement Learning-Based Interactive Optical tweezer (OT)-Driven Microrobotics Simulation Platform
- STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation
-
最近のコメント
表示できるコメントはありません。 cs.AI (38778) cs.CL (29316) cs.CV (44217) cs.HC (2951) cs.LG (43684) cs.RO (23114) cs.SY (3537) eess.IV (5099) eess.SY (3529) stat.ML (5683)
「eess.AS」カテゴリーアーカイブ
Self-Supervised Frameworks for Speaker Verification via Bootstrapped Positive Sampling
要約 自己学習学習(SSL)の最近の開発は、スピーカー検証(SV)の重要な可能性 … 続きを読む
Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples
要約 オーディオ認識の大規模な言語モデル(ALLMS)の最近の進歩により、オーデ … 続きを読む
SSPS: Self-Supervised Positive Sampling for Robust Self-Supervised Speaker Verification
要約 自己学習学習(SSL)は、スピーカー検証(SV)のかなりの進歩をもたらしま … 続きを読む
SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information
要約 大規模なオーディオ言語モデル(LALMS)は、スピーチ、オーディオなどのマ … 続きを読む
Granary: Speech Recognition and Translation Dataset in 25 European Languages
要約 マルチタスクと多言語のアプローチは大規模なモデルに利益をもたらしますが、低 … 続きを読む
Contextual Paralinguistic Data Creation for Multi-Modal Speech-LLM: Data Condensation and Spoken QA Generation
要約 現在の音声-LLMは、主に両方の側面をカバーする質問回答(QA)データセッ … 続きを読む
Anti-aliasing of neural distortion effects via model fine tuning
要約 ニューラルネットワークは、近年ギターの歪み効果モデリングで遍在しています。 … 続きを読む
Machine Learning Approaches to Vocal Register Classification in Contemporary Male Pop Music
要約 すべての経験レベルの歌手にとって、技術的なレパートリーを学ぶ際の最も困難な … 続きを読む
Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese
要約 大規模な言語モデル(LLMS)の最近の進歩により、テキストからスピーチ(T … 続きを読む