-
最近の投稿
- Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards
- OrbitGrasp: $SE(3)$-Equivariant Grasp Learning
- M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes
- Self-Supervised Learning For Robust Robotic Grasping In Dynamic Environment
- Routing and Scheduling Optimization for Urban Air Mobility Fleet Management using Quantum Annealing
-
最近のコメント
表示できるコメントはありません。 cs.AI (28126) cs.CL (21249) cs.CR (2197) cs.CV (34799) cs.LG (32858) cs.RO (16174) cs.SY (2496) eess.IV (4244) eess.SY (2490) stat.ML (4401)
「cs.SD」カテゴリーアーカイブ
Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR
要約 新しい LLM ベースのユースケースを世界中の人々が利用できるようにするに … 続きを読む
Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis
要約 私たちは、新しいタスク、つまり、低リソースのテキストで会話するアバターに興 … 続きを読む
Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning
要約 Amazon Echo や Google Home などのスマート スピー … 続きを読む
Chat with the Environment: Interactive Multimodal Perception Using Large Language Models
要約 複雑な世界でロボットの動作をプログラミングするには、器用な低レベルのスキル … 続きを読む
Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics
要約 オーディオビジュアル セグメンテーション (AVS) タスクは、特定のビデ … 続きを読む
DiffProsody: Diffusion-based Latent Prosody Generation for Expressive Speech Synthesis with Prosody Conditional Adversarial Training
要約 表現力豊かなテキスト読み上げシステムは、韻律モデリングにより大幅な進歩を遂 … 続きを読む
Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization
要約 自動音声認識 (ASR) は、最近、深層学習 (DL) を使用する際の重要 … 続きを読む
Contrastive Conditional Latent Diffusion for Audio-visual Segmentation
要約 我々は、オーディオの寄与を広範囲に調査するために、オーディオビジュアルセグ … 続きを読む
Audio-visual video-to-speech synthesis with synthesized input audio
要約 ビデオ音声合成では、サイレント ビデオから話者の音声信号を再構築します。 … 続きを読む