-
最近の投稿
- Bayesian optimization for robust robotic grasping using a sensorized compliant hand
- Lessons from Learning to Spin ‘Pens’
- Uncertainty-Aware Planning for Heterogeneous Robot Teams using Dynamic Topological Graphs and Mixed-Integer Programming
- Screw Geometry Meets Bandits: Incremental Acquisition of Demonstrations to Generate Manipulation Plans
- Search-Based Path Planning among Movable Obstacles
-
最近のコメント
表示できるコメントはありません。 cs.AI (28604) cs.CL (21619) cs.CR (2231) cs.CV (35206) cs.LG (33368) cs.RO (16520) cs.SY (2542) eess.IV (4287) eess.SY (2536) stat.ML (4474)
「eess.AS」カテゴリーアーカイブ
SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks
要約 プロンプト チューニングは、少数のパラメーター セットを調整して事前トレー … 続きを読む
On the Audio-visual Synchronization for Lip-to-Speech Synthesis
要約 ほとんどのリップ トゥ スピーチ (LTS) 合成モデルは、データセット内 … 続きを読む
Cross-modal Face- and Voice-style Transfer
要約 画像から画像への変換と音声変換により、画像内のポーズや音声内の言語コンテン … 続きを読む
READ Avatars: Realistic Emotion-controllable Audio Driven Avatars
要約 READ Avatars は、感情を直接かつきめ細かく制御するオーディオ入 … 続きを読む
Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation
要約 オーディオ スペクトログラム トランスフォーマー モデルは、オーディオ タ … 続きを読む
Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement
要約 最近、スコアベースの生成モデルが音声強調のタスクにうまく採用されています。 … 続きを読む
Pre-Finetuning for Few-Shot Emotional Speech Recognition
要約 音声モデルは、多くの分類タスクで個々の話者に過剰適合することが長い間知られ … 続きを読む
UniFLG: Unified Facial Landmark Generator from Text or Speech
要約 話し顔の生成は、その幅広い適用性のために広く研究されてきました。 会話面の … 続きを読む
Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla
要約 データ駆動型の自然言語処理システムのパフォーマンスは、コーパスの品質に左右 … 続きを読む
Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition
要約 障害のある高齢者の発話の自動認識は、そのようなデータを大量に収集することが … 続きを読む