-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
RoDia: A New Dataset for Romanian Dialect Identification from Speech
要約 方言の識別は、音声処理および言語テクノロジにおいて重要なタスクであり、音声 … 続きを読む
Leveraging Large Language Models for Exploiting ASR Uncertainty
要約 大規模な言語モデルはさまざまな自然言語処理 (NLP) タスクに優れていま … 続きを読む
Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio Representation
要約 この論文では、GENEA (身体エージェントのための非言語行動の生成と評価 … 続きを読む
GRASS: Unified Generation Model for Speech-to-Semantic Tasks
要約 この論文では、音声データのタスク関連プロンプトを条件としたターゲット テキ … 続きを読む
Addressing Feature Imbalance in Sound Source Separation
要約 ニューラル ネットワークは、タスクを解決するために特定の機能に過度に依存し … 続きを読む
Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP
要約 表現力豊かな Text-to-Speech (TTS) の領域では、明示的 … 続きを読む
LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech
要約 自己教師あり学習 (SSL) は、コンピューター ビジョンや自然言語処理な … 続きを読む
Parallel and Limited Data Voice Conversion Using Stochastic Variational Deep Kernel Learning
要約 通常、音声変換はトレーニング データが限られているエンジニアリング上の問題 … 続きを読む
LanSER: Language-Model Supported Speech Emotion Recognition
要約 音声感情認識 (SER) モデルは通常、トレーニングにコストのかかる人間が … 続きを読む
Multiple Representation Transfer from Large Language Models to End-to-End ASR Systems
要約 大規模言語モデル (LLM) の知識の転送は、言語知識をエンドツーエンドの … 続きを読む