-
最近の投稿
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- RPCBF: Constructing Safety Filters Robust to Model Error and Disturbances via Policy Control Barrier Functions
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34912) cs.LG (33009) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability
要約 ホットワードのカスタマイズは、ASR 分野に残された重要な問題の 1 つで … 続きを読む
ChinaTelecom System Description to VoxCeleb Speaker Recognition Challenge 2023
要約 この技術レポートでは、VoxCeleb2023 Speaker Recog … 続きを読む
Approximate Nearest Neighbour Phrase Mining for Contextual Speech Recognition
要約 このペーパーでは、コンテキスト エンコーダーの潜在空間からハード ネガティ … 続きを読む
Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator
要約 私たちは、文字起こしされた音声データ、テキストのみのデータ、またはその両方 … 続きを読む
Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) Transduction
要約 Text-to-Text Transfer Transformer (T5 … 続きを読む
Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes
要約 この論文では、多言語音素認識装置 Allophant を提案します。 ター … 続きを読む
Text Injection for Capitalization and Turn-Taking Prediction in Speech Models
要約 自動音声認識 (ASR) のためのテキスト インジェクションは、ペアになっ … 続きを読む
O-1: Self-training with Oracle and 1-best Hypothesis
要約 トレーニングのバイアスを軽減し、音声認識のトレーニングと評価の指標を統合す … 続きを読む
Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition
要約 追加のコンテキスト情報を組み込むことにより、ディープ バイアス手法が、パー … 続きを読む