-
最近の投稿
- Topological mapping for traversability-aware long-range navigation in off-road terrain
- Equality Constrained Diffusion for Direct Trajectory Optimization
- Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case
- Bi-Level Motion Imitation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (27641) cs.CL (20879) cs.CR (2167) cs.CV (34375) cs.LG (32373) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「eess.AS」カテゴリーアーカイブ
Foundation Models for Music: A Survey
要約 近年、大規模言語モデル(LLM)や潜在拡散モデル(LDM)などの基盤モデル … 続きを読む
Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers
要約 近年のディープラーニング技術の進歩により、マルチモーダルな医療データに基づ … 続きを読む
Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement
要約 1 次元フィルターを備えた畳み込み層は、オーディオ信号をエンコードするため … 続きを読む
SelectTTS: Synthesizing Anyone’s Voice via Discrete Unit-Based Frame Selection
要約 見えない話者の音声を合成することは、複数話者のテキスト読み上げ (TTS) … 続きを読む
Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent
要約 この論文では、高品質で人間のような同時音声翻訳 (SiST) システムであ … 続きを読む
Contextualized Automatic Speech Recognition with Dynamic Vocabulary
要約 ディープ バイアス (DB) は、バイアス リストを使用して、まれな単語や … 続きを読む
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model
要約 オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む
AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge
要約 音声の特徴に基づいて話者を識別する自動話者認証 (ASV) システムは、金 … 続きを読む
Advancing Multi-talker ASR Performance with Large Language Models
要約 会話シナリオで複数の話者から重複する音声を認識することは、自動音声認識 ( … 続きを読む