-
最近の投稿
- Open Challenges in the Formal Verification of Autonomous Driving
- Maximum Solar Energy Tracking Leverage High-DoF Robotics System with Deep Reinforcement Learning
- EdgeFlowNet: 100FPS@1W Dense Optical Flow For Tiny Mobile Robots
- A Systematic Study of Multi-Agent Deep Reinforcement Learning for Safe and Robust Autonomous Highway Ramp Entry
- Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning
-
最近のコメント
表示できるコメントはありません。 cs.AI (30057) cs.CL (22703) cs.CR (2332) cs.CV (36430) cs.LG (34881) cs.RO (17454) cs.SY (2679) eess.IV (4437) eess.SY (2673) stat.ML (4648)
「eess.AS」カテゴリーアーカイブ
LLaMA-Omni: Seamless Speech Interaction with Large Language Models
要約 GPT-4o のようなモデルは、音声による大規模言語モデル (LLM) と … 続きを読む
YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection
要約 流暢でない音声検出は、無秩序な音声分析や音声言語学習のボトルネックとなりま … 続きを読む
Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and Translation
要約 この論文では、音声認識および翻訳タスク用のシーケンス間モデルをトレーニング … 続きを読む
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning
要約 最近、AI コミュニティは、大規模なマルチモーダル データセットを活用した … 続きを読む
Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review
要約 パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であ … 続きを読む
Privacy versus Emotion Preservation Trade-offs in Emotion-Preserving Speaker Anonymization
要約 音声技術の進歩により、音声を通じて個人を特定できる情報に前例のないアクセス … 続きを読む
Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model
要約 異なる言語間の音声の類似性をモデル化することは本質的に難しいため、コードス … 続きを読む
LAST: Language Model Aware Speech Tokenization
要約 音声トークン化は音声言語モデル (LM) の基礎として機能し、音声言語モデ … 続きを読む
Raw Speech Enhancement with Deep State Space Modeling
要約 エンドツーエンド方式でオンラインの生の音声を効率的に強化するために構成され … 続きを読む