-
最近の投稿
- Design of a Visual Pose Estimation Algorithm for Moon Landing
- A novel step-by-step procedure for the kinematic calibration of robots using a single draw-wire encoder
- Ultra-High-Frequency Harmony: mmWave Radar and Event Camera Orchestrate Accurate Drone Landing
- Geometric Freeze-Tag Problem
- A Dual-Motor Actuator for Ceiling Robots with High Force and High Speed Capabilities
-
最近のコメント
表示できるコメントはありません。 cs.AI (34107) cs.CL (25783) cs.CR (2623) cs.CV (40027) cs.LG (39092) cs.RO (19895) cs.SY (3026) eess.IV (4764) eess.SY (3020) stat.ML (5162)
「cs.SD」カテゴリーアーカイブ
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning
要約 大規模音声言語モデル (LALM) の最近の進歩により、音声および音声情報 … 続きを読む
An investigation of phrase break prediction in an End-to-End TTS system
要約 目的: この研究では、エンドツーエンドの Text-to-Speech ( … 続きを読む
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement
要約 最近の音声強調 (SE) 研究では、トランスフォーマーとその変種が主要な方 … 続きを読む
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
要約 サウンド デザイナーやフォーリー アーティストは通常、ビデオ内の関心の … 続きを読む
Improving Generalization for AI-Synthesized Voice Detection
要約 AI 合成音声テクノロジーは、有益な用途のためにリアルな人間の声を作成でき … 続きを読む
A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation
要約 同時音声翻訳 (SimulST) では、ストリーミング音声入力を継続的に処 … 続きを読む
Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment
要約 音声とテキストを活用するマルチモーダル感情認識 (MER) は、人間とコン … 続きを読む
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization
要約 TangoFlux は、5 億 1500 万のパラメーターを備えた効率的な … 続きを読む
ETTA: Elucidating the Design Space of Text-to-Audio Models
要約 近年、Text-To-Audio (TTA) 合成が大幅に進歩しており、ユ … 続きを読む
Building a Taiwanese Mandarin Spoken Language Model: A First Attempt
要約 この技術レポートでは、台湾華語の音声大規模言語モデル (LLM) を構築す … 続きを読む