-
最近の投稿
- Identifying and Addressing Delusions for Target-Directed Decision-Making
- Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond
- Context-Aware Command Understanding for Tabletop Scenarios
- Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications
- Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology
-
最近のコメント
表示できるコメントはありません。 cs.AI (27853) cs.CL (21045) cs.CR (2180) cs.CV (34557) cs.LG (32593) cs.RO (15973) cs.SY (2479) eess.IV (4238) eess.SY (2473) stat.ML (4364)
「eess.AS」カテゴリーアーカイブ
MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations
要約 対照的自己教師あり学習は、大規模なラベルなしデータセットから高品質の表現を … 続きを読む
Enhancement of a Text-Independent Speaker Verification System by using Feature Combination and Parallel-Structure Classifiers
要約 話者検証 (SV) システムには、主に特徴抽出と分類という 2 つの個別の … 続きを読む
Multiple output samples per input in a single-output Gaussian process
要約 標準のガウス プロセス (GP) では、トレーニング セット内の入力ごとに … 続きを読む
UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization
要約 構音障害音声再構成 (DSR) システムは、構音障害のある音声を正常な音声 … 続きを読む
Comparison of parameters of vowel sounds of russian and english languages
要約 多言語音声認識システムでは、言語が事前にわかっていないにもかかわらず、信号 … 続きを読む
Turn-taking and Backchannel Prediction with Acoustic and Large Language Model Fusion
要約 我々は、神経音響モデルと大規模言語モデル(LLM)を融合することにより、音 … 続きを読む
Disentanglement in a GAN for Unconditional Speech Synthesis
要約 明示的な条件付けをせずに、潜在空間から直接リアルな音声を合成できるモデルを … 続きを読む
TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion
要約 オーディオビジュアル音声分離は、音声認識、日記化、シーン分析、支援技術など … 続きを読む
HyperSound: Generating Implicit Neural Representations of Audio Signals with Hypernetworks
要約 暗黙的ニューラル表現 (INR) は急速に成長している研究分野であり、マル … 続きを読む
SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation
要約 効果的な音声モデリングの恩恵を受けて、現在の音声大規模言語モデル (SLL … 続きを読む