-
最近の投稿
- High-Dimensional Independence Testing via Maximum and Average Distance Correlations
- Online Adaptation of Terrain-Aware Dynamics for Planning in Unstructured Environments
- ‘Don’t Do That!’: Guiding Embodied Systems through Large Language Model-based Constraint Generation
- SGN-CIRL: Scene Graph-based Navigation with Curriculum, Imitation, and Reinforcement Learning
- Olfactory Inertial Odometry: Sensor Calibration and Drift Compensation
-
最近のコメント
表示できるコメントはありません。 cs.AI (39257) cs.CL (29715) cs.CV (44646) cs.HC (2989) cs.LG (44172) cs.RO (23444) cs.SY (3577) eess.IV (5131) eess.SY (3569) stat.ML (5744)
「eess.AS」カテゴリーアーカイブ
MoonCast: High-Quality Zero-Shot Podcast Generation
要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む
Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers
要約 感情は口頭でのコミュニケーションにおいて不可欠な要素であるため、人間とロボ … 続きを読む
LLM-based speaker diarization correction: A generalizable approach
要約 スピーカーダイアリゼーションは、自動化された音声認識(ASR)ツールを使用 … 続きを読む
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウ … 続きを読む
Are Deep Speech Denoising Models Robust to Adversarial Noise?
要約 ディープノイズ抑制(DNS)モデルは、さまざまなハイステークス音声アプリケ … 続きを読む
Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment
要約 大規模なマルチモーダルモデル(LMM)は、幅広いドメインで並外れたパフォー … 続きを読む
Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature
要約 目的:公開されているSaarbr \ ‘ucken Voice … 続きを読む
Designing Neural Synthesizers for Low Latency Interaction
要約 ニューラルオーディオ合成(NAS)モデルは、高品質で表現力のあるオーディオ … 続きを読む
Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings
要約 多言語設定でのスピーカーの識別は、特に従来のモデルが主に英語のデータでトレ … 続きを読む
Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity
要約 LinformerやMambaなどのアーキテクチャは、最近、変圧器の競合的 … 続きを読む