-
最近の投稿
- Lightning UQ Box: A Comprehensive Framework for Uncertainty Quantification in Deep Learning
- Fine-Grained Expressive Power of Weisfeiler-Leman: A Homomorphism Counting Perspective
- Hybrid Feedback for Three-dimensional Convex Obstacle Avoidance (Extended version)
- Self-Deployable, Adaptive Soft Robots Based on Contracting-Cord Particle Jamming
- DecTrain: Deciding When to Train a DNN Online
-
最近のコメント
表示できるコメントはありません。 cs.AI (27713) cs.CL (20937) cs.CR (2171) cs.CV (34430) cs.LG (32450) cs.RO (15866) cs.SY (2464) eess.IV (4226) eess.SY (2458) stat.ML (4346)
「eess.AS」カテゴリーアーカイブ
From Real to Cloned Singer Identification
要約 人気歌手のクローン音声はますますリアルに聞こえ、ここ数年で人気が高まってい … 続きを読む
SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding
要約 現代の音声処理システムは自己注意に依存しています。 残念ながら、自己注意を … 続きを読む
Are Paralinguistic Representations all that is needed for Speech Emotion Recognition?
要約 事前トレーニング済みモデル (PTM) からの表現が利用できるようになった … 続きを読む
Autoregressive Speech Synthesis without Vector Quantization
要約 我々は、テキスト音声合成 (TTS) のための新しい連続値トークンベースの … 続きを読む
ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions
要約 トランスフォーマーは、オーディオ分類の新しい標準として CNN ベースのア … 続きを読む
AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning
要約 近年、表現学習と言語モデルの進歩により、自動キャプション (AC) が新た … 続きを読む
SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis
要約 歌声変換 (SVC) は、元の内容を維持したまま、特定の音楽作品内の歌手の … 続きを読む
カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7
SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis はコメントを受け付けていません
HebDB: a Weakly Supervised Dataset for Hebrew Speech Processing
要約 ヘブライ語の音声言語処理用の弱教師データセットである HebDB を紹介し … 続きを読む
Transforming LLMs into Cross-modal and Cross-lingual Retrieval Systems
要約 大規模言語モデル (LLM) は、音声データとテキスト データのペアを含む … 続きを読む