-
最近の投稿
- TOFFE — Temporally-binned Object Flow from Events for High-speed and Energy-Efficient Object Detection and Tracking
- ELEGNT: Expressive and Functional Movement Design for Non-anthropomorphic Robot
- Tightly Coupled SLAM with Imprecise Architectural Plans
- LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty
- Interaction Dataset of Autonomous Vehicles with Traffic Lights and Signs
-
最近のコメント
表示できるコメントはありません。 cs.AI (32585) cs.CL (24637) cs.CR (2521) cs.CV (38784) cs.LG (37457) cs.RO (18976) cs.SY (2901) eess.IV (4651) eess.SY (2895) stat.ML (4943)
「cs.SD」カテゴリーアーカイブ
Improving Generalization for AI-Synthesized Voice Detection
要約 AI 合成音声テクノロジーは、有益な用途のためにリアルな人間の声を作成でき … 続きを読む
A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation
要約 同時音声翻訳 (SimulST) では、ストリーミング音声入力を継続的に処 … 続きを読む
Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment
要約 音声とテキストを活用するマルチモーダル感情認識 (MER) は、人間とコン … 続きを読む
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization
要約 TangoFlux は、5 億 1500 万のパラメーターを備えた効率的な … 続きを読む
ETTA: Elucidating the Design Space of Text-to-Audio Models
要約 近年、Text-To-Audio (TTA) 合成が大幅に進歩しており、ユ … 続きを読む
Building a Taiwanese Mandarin Spoken Language Model: A First Attempt
要約 この技術レポートでは、台湾華語の音声大規模言語モデル (LLM) を構築す … 続きを読む
Mamba for Streaming ASR Combined with Unimodal Aggregation
要約 この論文はストリーミング自動音声認識 (ASR) に取り組んでいます。 最 … 続きを読む
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training
要約 自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む
Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling
要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む
Long-Form Speech Generation with Spoken Language Models
要約 私たちは、長文マルチメディア生成とオーディオネイティブ音声アシスタントの要 … 続きを読む