-
最近の投稿
- Design of a Visual Pose Estimation Algorithm for Moon Landing
- A novel step-by-step procedure for the kinematic calibration of robots using a single draw-wire encoder
- Ultra-High-Frequency Harmony: mmWave Radar and Event Camera Orchestrate Accurate Drone Landing
- Geometric Freeze-Tag Problem
- A Dual-Motor Actuator for Ceiling Robots with High Force and High Speed Capabilities
-
最近のコメント
表示できるコメントはありません。 cs.AI (34107) cs.CL (25783) cs.CR (2623) cs.CV (40027) cs.LG (39092) cs.RO (19895) cs.SY (3026) eess.IV (4764) eess.SY (3020) stat.ML (5162)
「cs.SD」カテゴリーアーカイブ
AccentBox: Towards High-Fidelity Zero-Shot Accent Generation
要約 最近の Zero-Shot Text-to-Speech (ZS-TTS) … 続きを読む
Multi-class Decoding of Attended Speaker Direction Using Electroencephalogram and Audio Spatial Spectrum
要約 聴取者の脳波 (EEG) 信号から聴取者の焦点の指向性を解読することは、聴 … 続きを読む
AnCoGen: Analysis, Control and Generation of Speech with a Masked Autoencoder
要約 この記事では、マスクされたオートエンコーダーを利用して音声信号の分析、制御 … 続きを読む
Seeing Sound: Assembling Sounds from Visuals for Audio-to-Image Generation
要約 音声から画像への生成モデルをトレーニングするには、意味的に整合した多様な音 … 続きを読む
Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition
要約 事前トレーニングされた自動音声認識 (ASR) システムは、一致したドメイ … 続きを読む
Decoding EEG Speech Perception with Transformers and VAE-based Data Augmentation
要約 脳波検査 (EEG) などの非侵襲的な脳信号から音声を解読することは、音声 … 続きを読む
Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores
要約 kNN-CTC モデルは、単言語自動音声認識 (ASR) に有効であること … 続きを読む
Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models
要約 私たちは、状態空間モデル (SSM) の基礎に基づいて構築された、新しい … 続きを読む
Unsupervised Speech Segmentation: A General Approach Using Speech Language Models
要約 この論文では、音声セグメンテーションの教師なしアプローチを紹介します。これ … 続きを読む
Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits
要約 ニューラル音声編集の進歩により、なりすまし攻撃における悪用に対する懸念が生 … 続きを読む