-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Towards continually learning new languages
要約 ニューラル ネットワークを使用した多言語音声認識は、多くの場合、トレーニン … 続きを読む
N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space
要約 エラー訂正モデルは、自動音声認識 (ASR) 後処理の重要な部分を形成し、 … 続きを読む
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
要約 MuAViC は、9 つの言語で 1200 時間のオーディオビジュアル … 続きを読む
Improving Noisy Student Training on Non-target Domain Data for Automatic Speech Recognition
要約 Noisy Student Training (NST) は最近、自動音声 … 続きを読む
SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks
要約 プロンプト チューニングは、少数のパラメーター セットを調整して事前トレー … 続きを読む
On the Audio-visual Synchronization for Lip-to-Speech Synthesis
要約 ほとんどのリップ トゥ スピーチ (LTS) 合成モデルは、データセット内 … 続きを読む
Cross-modal Face- and Voice-style Transfer
要約 画像から画像への変換と音声変換により、画像内のポーズや音声内の言語コンテン … 続きを読む
READ Avatars: Realistic Emotion-controllable Audio Driven Avatars
要約 READ Avatars は、感情を直接かつきめ細かく制御するオーディオ入 … 続きを読む
Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation
要約 オーディオ スペクトログラム トランスフォーマー モデルは、オーディオ タ … 続きを読む
Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement
要約 最近、スコアベースの生成モデルが音声強調のタスクにうまく採用されています。 … 続きを読む