-
最近の投稿
- LASER: Script Execution by Autonomous Agents for On-demand Traffic Simulation
- Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models
- MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework
- SLLEN: Semantic-aware Low-light Image Enhancement Network
- TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks
-
最近のコメント
表示できるコメントはありません。 cs.AI (28404) cs.CL (21462) cs.CR (2219) cs.CV (35035) cs.LG (33150) cs.RO (16371) cs.SY (2518) eess.IV (4266) eess.SY (2512) stat.ML (4445)
「eess.AS」カテゴリーアーカイブ
HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition
要約 最先端の ASR システムは、ローカルとグローバルの相互作用を個別にモデル … 続きを読む
CommonAccent: Exploring Large Acoustic Pretrained Models for Accent Classification Based on Common Voice
要約 自動音声認識 (ASR) の最近の進歩にもかかわらず、アクセントのある音声 … 続きを読む
Leveraging characteristics of the output probability distribution for identifying adversarial audio examples
要約 敵対的攻撃は、機械学習ベースの自動音声認識 (ASR) システムに対するセ … 続きを読む
DisfluencyFixer: A tool to enhance Language Learning through Speech To Speech Disfluency Correction
要約 会話の音声は多くの場合、音声計画からの逸脱で構成され、流暢な発話を生成し、 … 続きを読む
UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units
要約 すべてのコンポーネントを共同で最適化できる直接音声音声変換 (S2ST) … 続きを読む
Detecting the Severity of Major Depressive Disorder from Speech: A Novel HARD-Training Methodology
要約 大うつ病性障害 (MDD) は、高い社会経済的コストを伴う世界的に一般的な … 続きを読む
ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition
要約 音声感情認識 (SER) では、音声信号固有の変動性に対処するために、テキ … 続きを読む
VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation
要約 最近の研究では、さまざまなモダリティのさまざまなタスクにわたって、モデル … 続きを読む
End-to-End Simultaneous Speech Translation with Differentiable Segmentation
要約 エンドツーエンド同時音声翻訳 (SimulST) は、ストリーミング音声入 … 続きを読む