-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Fast Word Error Rate Estimation Using Self-Supervised Representations For Speech And Text
要約 自動音声認識 (ASR) の品質は通常、単語誤り率 (WER) によって測 … 続きを読む
Impact of time and note duration tokenizations on deep learning symbolic music modeling
要約 象徴的な音楽は、生成、転写、合成、音楽情報検索 (MIR) などのさまざま … 続きを読む
Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation
要約 オーディオ駆動トーキングヘッド合成は、仮想人間関連アプリケーションの人気の … 続きを読む
Soundify: Matching Sound Effects to Video
要約 ビデオ編集の分野では、サウンドはオブジェクトに個性を加え、視聴者を空間に没 … 続きを読む
Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction
要約 人間は、一般的にカクテル パーティーのシナリオと呼ばれる、複雑な音響環境の … 続きを読む
Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction
要約 人間は、一般的にカクテル パーティーのシナリオと呼ばれる、複雑な音響環境の … 続きを読む
Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers
要約 この研究では、音素ベースの神経トランスデューサーのシーケンス識別トレーニン … 続きを読む
DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation
要約 直接音声ツー音声翻訳 (S2ST) は、単一のモデルを使用して音声をある言 … 続きを読む
Adapting the adapters for code-switching in multilingual ASR
要約 最近、事前トレーニングされた大規模な多言語音声モデルにより、自動音声認識 … 続きを読む