-
最近の投稿
- Open-Structure: Structural Benchmark Dataset for SLAM Algorithms
- Goal Inference from Open-Ended Dialog
- Learning a Stable, Safe, Distributed Feedback Controller for a Heterogeneous Platoon of Autonomous Vehicles
- MarineFormer: A Transformer-based Navigation Policy Model for Collision Avoidance in Marine Environment
- RecoveryChaining: Learning Local Recovery Policies for Robust Manipulation
-
最近のコメント
表示できるコメントはありません。 cs.AI (28338) cs.CL (21411) cs.CR (2212) cs.CV (34970) cs.LG (33082) cs.RO (16320) cs.SY (2507) eess.IV (4260) eess.SY (2501) stat.ML (4433)
「eess.AS」カテゴリーアーカイブ
Automatic Speech Disentanglement for Voice Conversion using Rank Module and Speech Augmentation
要約 音声変換 (VC) は、ソースの内容を維持しながら、ソースの音声をターゲッ … 続きを読む
Diffusion Posterior Sampling for Informed Single-Channel Dereverberation
要約 本稿では、拡散モデルによる条件付き生成に基づいた、情報に基づいた単一チャネ … 続きを読む
Visual-Aware Text-to-Speech
要約 対面での対話では、聞いている頭に積極的に反応する話し言葉を動的に合成するこ … 続きを読む
Strategies in Transfer Learning for Low-Resource Speech Synthesis: Phone Mapping, Features Input, and Source Language Selection
要約 PHOIBLE ベースの音マッピング手法の使用と、低リソース言語での TT … 続きを読む
PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction
要約 自動音声認識 (ASR) システムによって発生する音声からテキストへのエラ … 続きを読む
SGEM: Test-Time Adaptation for Automatic Speech Recognition via Sequential-Level Generalized Entropy Minimization
要約 自動音声認識 (ASR) モデルは、多くの実世界のシナリオでデータ分布の変 … 続きを読む
Knowledge-based Multimodal Music Similarity
要約 音楽の類似性は、音楽検索、推奨システム、および音楽分析にとって重要な側面で … 続きを読む
MARBLE: Music Audio Representation Benchmark for Universal Evaluation
要約 画像生成やフィクションの共同制作など、アートと人工知能 (AI) が広範に … 続きを読む
Visually grounded few-shot word learning in low-resource settings
要約 我々は、ほんの数個の単語と画像の例のペアから新しい単語とその視覚的描写を学 … 続きを読む
Deep neural network techniques for monaural speech enhancement: state of the art analysis
要約 ディープ ニューラル ネットワーク (DNN) 技術は、自然言語処理やコン … 続きを読む