-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes
要約 擬似ラベルを使用して Whisper の知識を小さなモデルに抽出する最近の … 続きを読む
Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding
要約 この文書の目標は、音声品質の犠牲を最小限に抑えながら、コーデックベースの音 … 続きを読む
GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks
要約 高品質でマルチタスクの歌唱データセットの不足は、既存の歌唱データセットの品 … 続きを読む
Everyday Speech in the Indian Subcontinent
要約 インドには 1,369 の言語があり、そのうち 22 が公用語です。 これ … 続きを読む
Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies
要約 オーディオビジュアルディープフェイク検出に関する既存の方法は、オーディオデ … 続きを読む
Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation
要約 最近、普及モデルはモノチャンネルオーディオ生成において大きな成功を収めてい … 続きを読む
Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities
要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む
Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities
要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む
UniGlyph: A Seven-Segment Script for Universal Language Representation
要約 UniGlyph は、7 セグメント文字から派生したスクリプトを使用してユ … 続きを読む
Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models
要約 柔軟な音声認識ベースのシステムまたは音声プロンプトの大規模言語モデル (L … 続きを読む