-
最近の投稿
- High-Dimensional Independence Testing via Maximum and Average Distance Correlations
- Online Adaptation of Terrain-Aware Dynamics for Planning in Unstructured Environments
- ‘Don’t Do That!’: Guiding Embodied Systems through Large Language Model-based Constraint Generation
- SGN-CIRL: Scene Graph-based Navigation with Curriculum, Imitation, and Reinforcement Learning
- Olfactory Inertial Odometry: Sensor Calibration and Drift Compensation
-
最近のコメント
表示できるコメントはありません。 cs.AI (39257) cs.CL (29715) cs.CV (44646) cs.HC (2989) cs.LG (44172) cs.RO (23444) cs.SY (3577) eess.IV (5131) eess.SY (3569) stat.ML (5744)
「eess.AS」カテゴリーアーカイブ
Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation
要約 音声品質評価では、通常、平均意見スコア(MOS)やスピーカーの類似性(SI … 続きを読む
QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions
要約 このペーパーでは、自然言語の説明を活用することにより、音声品質評価に対する … 続きを読む
Continuous Speech Tokenizer in Text To Speech
要約 大規模な言語モデルの時代における言語と言語の融合は、大きな注目を集めていま … 続きを読む
MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues
要約 オーディオビジュアルターゲットスピーカー抽出(AV-TSE)は、時間同期さ … 続きを読む
Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis
要約 トーキングヘッド合成は、コンピューターグラフィックスとマルチメディアの重要 … 続きを読む
Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision
要約 多言語および相互自動音声認識(MCL-ASR) – 音声または … 続きを読む
Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting
要約 スピーチの自己学習学習(SSL)は、さまざまな音声処理タスクで大きな進歩を … 続きを読む
Benchmarking Machine Learning Methods for Distributed Acoustic Sensing
要約 分散音響センシング(DAS)テクノロジーは、光ファイバーに沿った微小摂動の … 続きを読む
Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising
要約 このペーパーでは、ゼロショットオーディオビデオ編集を紹介します。これは、追 … 続きを読む
Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes
要約 視覚シーン内の音声言語と非スピーチの両方の音の両方を同時に接地できる統合モ … 続きを読む