-
最近の投稿
- Multi-modal cascade feature transfer for polymer property prediction
- Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision
- Weighted Random Dot Product Graphs
- PAHA: Parts-Aware Audio-Driven Human Animation with Diffusion Model
- Visual Imitation Enables Contextual Humanoid Control
-
最近のコメント
表示できるコメントはありません。 cs.AI (37691) cs.CL (28491) cs.CV (43314) cs.HC (2883) cs.LG (42612) cs.RO (22381) cs.SY (3435) eess.IV (5028) eess.SY (3427) stat.ML (5562)
「cs.SD」カテゴリーアーカイブ
Speech Robust Bench: A Robustness Benchmark For Speech Recognition
要約 自動音声認識 (ASR) モデルがますます普及するにつれて、物理世界とデジ … 続きを読む
EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations
要約 テキスト読み上げ (TTS) テクノロジーの進歩により、生成される音声の品 … 続きを読む
Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey
要約 音声合成としても知られる Text-to-Speech (TTS) は、テ … 続きを読む
Source Separation & Automatic Transcription for Music
要約 ソース分離は、複数の音の聴覚的混合から個々の音を分離するプロセスであり [ … 続きを読む
FabuLight-ASD: Unveiling Speech Activity via Body Language
要約 マルチモーダル環境におけるアクティブ話者検出 (ASD) は、ビデオ会議か … 続きを読む
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models
要約 Large Audio-Language Model (LALM) にはク … 続きを読む
Missing Melodies: AI Music Generation and its ‘Nearly’ Complete Omission of the Global South
要約 生成 AI の最近の進歩により、音楽生成に対する新たな関心と可能性が広がり … 続きを読む
Representation Purification for End-to-End Speech Translation
要約 音声からテキストへの翻訳 (ST) は、音声言語を別の言語のテキストに変換 … 続きを読む
CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing
要約 さまざまな音声処理タスクに広く適用できる汎用条件付けモデルである、Cond … 続きを読む