-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Improving Contextual Spelling Correction by External Acoustics Attention and Semantic Aware Data Augmentation
要約 名前、場所などのコンテキスト情報を使用して、エンドツーエンド (E2E) … 続きを読む
Exploring Effective Distillation of Self-Supervised Speech Models for Automatic Speech Recognition
要約 近年、音声処理における自己教師あり学習 (SSL) が大きく進歩しています … 続きを読む
MADI: Inter-domain Matching and Intra-domain Discrimination for Cross-domain Speech Recognition
要約 通常、エンド ツー エンドの自動音声認識 (ASR) は、ドメイン シフト … 続きを読む
Chord-Conditioned Melody Harmonization with Controllable Harmonicity
要約 旋律のハーモナイゼーションは、ヨハン・セバスティアン・バッハが作曲したコラ … 続きを読む
Cross-modal Audio-visual Co-learning for Text-independent Speaker Verification
要約 視覚的な発話 (つまり、唇の動き) は、音声生成における同時発生と同期によ … 続きを読む
Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform
要約 マルチバンド生成と逆短時間フーリエ変換を使用して、軽量なエンドツーエンドの … 続きを読む
MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets
要約 この論文では、自己訓練目標がどのように得られるかから、自己教師あり音声モデ … 続きを読む
Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition
要約 Wav2Vec 2.0 は音声認識 (ASR) 用に提案されていますが、音 … 続きを読む
Efficient CTC Regularization via Coarse Labels for End-to-End Speech Translation
要約 エンド ツー エンドの音声翻訳の場合、ソース トランスクリプトまたはターゲ … 続きを読む
Interpretable Spectrum Transformation Attacks to Speaker Recognition
要約 話者認識に対する敵対的攻撃の成功は、主にホワイト ボックス シナリオにあり … 続きを読む