-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「eess.AS」カテゴリーアーカイブ
Developing Acoustic Models for Automatic Speech Recognition in Swedish
要約 この論文は、訓練可能なシステムを使用した自動連続音声認識に関するものです。 … 続きを読む
ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling
要約 環境音響モデルは、特定の音源/受信機の場所において、音が屋内環境の物理的特 … 続きを読む
U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF
要約 Scale は自然言語処理の新たな境地を切り開きましたが、それには高いコス … 続きを読む
STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models
要約 Transformer ベースの音声自己教師あり学習 (SSL) モデルは … 続きを読む
Automatic Speech Recognition System-Independent Word Error Rate Estimatio
要約 単語誤り率 (WER) は、自動音声認識 (ASR) システムによって生成 … 続きを読む
Voice Passing : a Non-Binary Voice Gender Prediction System for evaluating Transgender voice transition
要約 この論文では、連続音声女性性パーセント (VFP) を使用して音声を記述す … 続きを読む
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
要約 最近の大規模な音声合成 (TTS) モデルは大幅な進歩を遂げていますが、音 … 続きを読む
StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations
要約 音響表現力は表現力豊かなテキスト読み上げ (ETTS) において長い間研究 … 続きを読む
Deferred NAM: Low-latency Top-K Context Injection via Deferred Context Encoding for Non-Streaming ASR
要約 コンテキスト バイアスにより、音声認識プログラムは、連絡先名などの重要なフ … 続きを読む
Robotic Blended Sonification: Consequential Robot Sound as Creative Material for Human-Robot Interaction
要約 ロボット音に関する現在の研究は一般に、ロボットによって生成される結果的な音 … 続きを読む