-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Exploring Meta Information for Audio-based Zero-shot Bird Classification
要約 受動的音響モニタリングと機械学習の進歩により、計算による生体音響研究のため … 続きを読む
Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary Network
要約 標準的な話者ダイアリゼーションは「誰がいつ話したか」という質問に答えようと … 続きを読む
Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for Robust Polyglot Text-To-Speech
要約 この研究では、上流の音声変換 (VC) モデルと下流の Text-To-S … 続きを読む
DiaCorrect: Error Correction Back-end For Speaker Diarization
要約 この研究では、シンプルかつ効果的な方法でダイアライゼーション システムの出 … 続きを読む
Mixture Encoder Supporting Continuous Speech Separation for Meeting Recognition
要約 自動音声認識 (ASR) の現実のアプリケーションの多くは、重複した音声の … 続きを読む
Augmenting conformers with structured state space models for online speech recognition
要約 モデルが左側のコンテキストにのみアクセスするオンライン音声認識は、ASR … 続きを読む
System Fingerprint Recognition for Deepfake Audio: An Initial Dataset and Investigation
要約 深層音声合成モデルの急速な進歩は、悪意のあるコンテンツ操作などの重大な脅威 … 続きを読む
Text-Driven Foley Sound Generation With Latent Diffusion Model
要約 フォーリー サウンド生成は、マルチメディア コンテンツの背景サウンドを合成 … 続きを読む
Towards Practical and Efficient Image-to-Speech Captioning with Vision-Language Pre-training and Multi-modal Tokens
要約 この論文では、強力かつ効率的な Image-to-Speech キャプショ … 続きを読む
Visual Speech Recognition for Low-resource Languages with Automatic Labels From Whisper Model
要約 この論文では、複数の言語、特にラベル付きデータの数が限られている低リソース … 続きを読む