-
最近の投稿
- FlowBotHD: History-Aware Diffuser Handling Ambiguities in Articulated Objects Manipulation
- A Novel Twisted-Winching String Actuator for Robotic Applications: Design and Validation
- Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration
- Design Space Exploration of Embedded SoC Architectures for Real-Time Optimal Control
-
最近のコメント
表示できるコメントはありません。 cs.AI (28198) cs.CL (21301) cs.CR (2201) cs.CV (34856) cs.LG (32941) cs.RO (16224) cs.SY (2500) eess.IV (4250) eess.SY (2494) stat.ML (4412)
「eess.AS」カテゴリーアーカイブ
Bridging the Gaps of Both Modality and Language: Synchronous Bilingual CTC for Speech Translation and Speech Recognition
要約 この研究では、音声翻訳 (ST) タスクにおけるモダリティと言語の両方のギ … 続きを読む
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model
要約 ノイズ除去拡散確率モデル (DDPM) は、音声合成において有望なパフォー … 続きを読む
TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive Learning
要約 この研究の目標は、一連のビデオ フレーム内で人が話しているかどうかを判断す … 続きを読む
Analyzing And Improving Neural Speaker Embeddings for ASR
要約 ニューラル話者埋め込みは、DNN モデルを通じて話者の音声特性をエンコード … 続きを読む
Development of Hybrid ASR Systems for Low Resource Medical Domain Conversational Telephone Speech
要約 ますますつながりが増し、グローバル化が進む世界では、言語の壁が大きな課題と … 続きを読む
PromptASR for contextualized ASR with controllable style
要約 プロンプトは、トピックや論理的関係などのコンテキスト情報を提供するため、大 … 続きを読む
Speak While You Think: Streaming Speech Synthesis During Text Generation
要約 大規模言語モデル (LLM) は優れた機能を示しますが、これらのモデルとの … 続きを読む
Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition
要約 方言に対する効果的な自動音声認識 (ASR) ソリューションを作成するには … 続きを読む
Incremental Blockwise Beam Search for Simultaneous Speech Translation with Controllable Quality-Latency Tradeoff
要約 ブロック単位のセルフアテンション エンコーダ モデルは、同時音声翻訳に対す … 続きを読む