-
最近の投稿
- Agent-Based Emulation for Deploying Robot Swarm Behaviors
- Automated Planning Domain Inference for Task and Motion Planning
- Tactile Displays Driven by Projected Light
- Caging in Time: A Framework for Robust Object Manipulation under Uncertainties and Limited Robot Perception
- Implicit Contact Diffuser: Sequential Contact Reasoning with Latent Point Cloud Diffusion
-
最近のコメント
表示できるコメントはありません。 cs.AI (28464) cs.CL (21516) cs.CR (2224) cs.CV (35088) cs.LG (33220) cs.RO (16420) cs.SY (2528) eess.IV (4274) eess.SY (2522) stat.ML (4457)
「eess.AS」カテゴリーアーカイブ
Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR
要約 新しい LLM ベースのユースケースを世界中の人々が利用できるようにするに … 続きを読む
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation
要約 音声直接翻訳 (S2ST) は、音声をある言語から別の言語に変換することを … 続きを読む
Unit-based Speech-to-Speech Translation Without Parallel Data
要約 我々は、ソース言語とターゲット言語間の並列データに依存しない教師なし音声対 … 続きを読む
Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric Learning
要約 この論文では、視覚音声認識 (VSR) における通常の音声と無音音声の間の … 続きを読む
Modulation Extraction for LFO-driven Audio Effects
要約 フェイザー、フランジャー、コーラスなどの低周波発振器 (LFO) 駆動のオ … 続きを読む
Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters
要約 自動吹き替え用に音声を翻訳するには、機械翻訳が等時性である必要があります。 … 続きを読む
A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech
要約 きれいな音声の欠如は、音声強調システムの開発にとって実際的な課題であり、ト … 続きを読む
AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation
要約 近年、画像生成のパフォーマンスは大幅に向上しており、拡散モデルが中心的な役 … 続きを読む
Sensing of inspiration events from speech: comparison of deep learning and linguistic methods
要約 呼吸用チェストベルトセンサーを使用して、呼吸数やその他の呼吸器の健康パラメ … 続きを読む
Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation
要約 HuBERT などのトランスフォーマーベースの音声自己教師あり学習 (SS … 続きを読む