-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Unified Modeling of Multi-Talker Overlapped Speech Recognition and Diarization with a Sidecar Separator
要約 複数の話者の重複した音声は、音声認識と日記作成に重大な課題をもたらします。 … 続きを読む
LMs with a Voice: Spoken Language Modeling beyond Speech Tokens
要約 我々は、事前に訓練された言語モデル (LM) を適応させて音声継続を実行す … 続きを読む
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment
要約 STS (Speech-to-Singing) 音声変換タスクは、音声録音 … 続きを読む
Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR
要約 新しい LLM ベースのユースケースを世界中の人々が利用できるようにするに … 続きを読む
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation
要約 音声直接翻訳 (S2ST) は、音声をある言語から別の言語に変換することを … 続きを読む
Modulation Extraction for LFO-driven Audio Effects
要約 フェイザー、フランジャー、コーラスなどの低周波発振器 (LFO) 駆動のオ … 続きを読む
Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters
要約 自動吹き替え用に音声を翻訳するには、機械翻訳が等時性である必要があります。 … 続きを読む
A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech
要約 きれいな音声の欠如は、音声強調システムの開発にとって実際的な課題であり、ト … 続きを読む
AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation
要約 近年、画像生成のパフォーマンスは大幅に向上しており、拡散モデルが中心的な役 … 続きを読む