-
最近の投稿
- MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework
- SLLEN: Semantic-aware Low-light Image Enhancement Network
- TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks
- Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning
- Joint Sensing and Semantic Communications with Multi-Task Deep Learning
-
最近のコメント
表示できるコメントはありません。 cs.AI (28403) cs.CL (21462) cs.CR (2219) cs.CV (35034) cs.LG (33149) cs.RO (16370) cs.SY (2518) eess.IV (4266) eess.SY (2512) stat.ML (4445)
「eess.AS」カテゴリーアーカイブ
How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics
要約 生成音声言語モデリング (GSLM) の音声モデリングの可能性を調べます。 … 続きを読む
Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning
要約 統合されたストリーミングおよび非ストリーミング音声認識モデルは、その包括的 … 続きを読む
SQuId: Measuring Speech Naturalness in Many Languages
要約 テキスト読み上げの研究の多くは人間による評価に依存しているため、多大なコス … 続きを読む
Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition
要約 追加のコンテキスト情報を組み込むことにより、ディープ バイアス手法が、パー … 続きを読む
UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model
要約 この論文では、さまざまな音声逆タスクを解決できる拡散確率モデル UnDif … 続きを読む
Improved Cross-Lingual Transfer Learning For Automatic Speech Translation
要約 多言語の音声からテキストへの翻訳に関する研究が話題になっています。 複数の … 続きを読む
Iterative autoregression: a novel trick to improve your low-latency speech enhancement model
要約 ストリーミング モデルは、リアルタイム音声強調ツールの重要なコンポーネント … 続きを読む
VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report]
要約 ユーザーがビデオ データセットに対してドメイン固有のモデルを構築できるよう … 続きを読む
UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures
要約 複数のスピーカーが同時に存在する残響状態では、各マイクは異なる場所にある複 … 続きを読む
Text-to-Speech Pipeline for Swiss German — A comparison
要約 この研究では、さまざまな Text-to-Speech (TTS) モデル … 続きを読む