-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios
要約 大規模な言語モデルの急速な発展により、研究者は人間と自然に会話できる高度な … 続きを読む
Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling
要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む
RiTTA: Modeling Event Relations in Text-to-Audio Generation
要約 Text-to-Audio (TTA) 生成モデルは大幅に進歩し、詳細なコ … 続きを読む
Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction
要約 自動ビデオ ダビング (AVD) は、スクリプトから唇の動きと顔の感情に合 … 続きを読む
Text2midi: Generating Symbolic Music from Captions
要約 この文書では、テキスト記述から MIDI ファイルを生成するエンドツーエン … 続きを読む
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning
要約 大規模音声言語モデル (LALM) の最近の進歩により、音声および音声情報 … 続きを読む
An investigation of phrase break prediction in an End-to-End TTS system
要約 目的: この研究では、エンドツーエンドの Text-to-Speech ( … 続きを読む
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement
要約 最近の音声強調 (SE) 研究では、トランスフォーマーとその変種が主要な方 … 続きを読む
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
要約 サウンド デザイナーやフォーリー アーティストは通常、ビデオ内の関心の … 続きを読む
Improving Generalization for AI-Synthesized Voice Detection
要約 AI 合成音声テクノロジーは、有益な用途のためにリアルな人間の声を作成でき … 続きを読む