-
最近の投稿
- Persistent Homology for Structural Characterization in Disordered Systems
- Agnostic Learning of Arbitrary ReLU Activation under Gaussian Marginals
- Adversarial Poisoning Attack on Quantum Machine Learning Models
- A Data-Driven Modeling and Motion Control of Heavy-Load Hydraulic Manipulators via Reversible Transformation
- Data-Driven Multi-step Nonlinear Model Predictive Control for Industrial Heavy Load Hydraulic Robot
-
最近のコメント
表示できるコメントはありません。 cs.AI (29990) cs.CL (22653) cs.CR (2326) cs.CV (36363) cs.LG (34814) cs.RO (17416) cs.SY (2673) eess.IV (4425) eess.SY (2667) stat.ML (4643)
「eess.AS」カテゴリーアーカイブ
Towards Leveraging Contrastively Pretrained Neural Audio Embeddings for Recommender Tasks
要約 音楽レコメンダー システムは、音楽作品、アーティスト、ユーザー間の関係を把 … 続きを読む
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis
要約 ドメイン外 (OOD) 歌声合成 (SVS) のためのスタイル転送は、リフ … 続きを読む
Full-text Error Correction for Chinese Speech Recognition with Large Language Model
要約 大規模言語モデル (LLM) は、自動音声認識 (ASR) におけるエラー … 続きを読む
A corpus-based investigation of pitch contours of monosyllabic words in conversational Taiwan Mandarin
要約 中国語では、単独で、または注意して話したときに生成される単音節単語の音調の … 続きを読む
The Faetar Benchmark: Speech Recognition in a Very Under-Resourced Language
要約 Faetar 自動音声認識ベンチマークを紹介します。これは、低リソースの音 … 続きを読む
AudioBERT: Audio Knowledge Augmented Language Model
要約 最近の研究では、テキストのみのデータセットで事前トレーニングされた言語モデ … 続きを読む
Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction
要約 Sim2real 転送は、シミュレーションでロボット タスクをエンドツーエ … 続きを読む
D-CAPTCHA++: A Study of Resilience of Deepfake CAPTCHA under Transferable Imperceptible Adversarial Attack
要約 生成 AI の進歩により、テキスト読み上げや音声変換などの音声合成モデルの … 続きを読む
Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval
要約 音声と画像の検索が成功するかどうかは、音声と画像の間の効果的な調整を確立で … 続きを読む
Coarse-to-fine Alignment Makes Better Speech-image Retrieval
要約 この論文では、音声画像検索のための新しいフレームワークを提案します。 音声 … 続きを読む