-
最近の投稿
- Privacy-Preserving Decentralized AI with Confidential Computing
- MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
- Enhanced Prompt-leveraged Weakly Supervised Cancer Segmentation based on Segment Anything
- Harnessing Webpage UIs for Text-Rich Visual Understanding
- BenTo: Benchmark Task Reduction with In-Context Transferability
-
最近のコメント
表示できるコメントはありません。 cs.AI (28264) cs.CL (21358) cs.CR (2208) cs.CV (34917) cs.LG (33011) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
A Comparative Study of Self-Supervised Speech Representations in Read and Spontaneous TTS
要約 最近の研究では、標準的な 2 段階 TTS の表現媒体として、従来使用され … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む
Task-Agnostic Structured Pruning of Speech Representation Models
要約 Wav2vec2、Hubert、WavLM などの自己教師付き事前トレーニ … 続きを読む
Can Generative Large Language Models Perform ASR Error Correction?
要約 ASR エラー修正は、音声認識システムの後処理の重要な部分として機能し続け … 続きを読む
VampNet: Music Generation via Masked Acoustic Token Modeling
要約 音楽の合成、圧縮、修復、バリエーションに対するマスクされた音響トークン モ … 続きを読む
Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis
要約 読み上げ音声合成が高い自然性スコアを達成することで、自発的な音声の合成に対 … 続きを読む
Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos
要約 私たちは、自己中心的なビデオにおける空間的な視聴覚対応に基づいて表現を学習 … 続きを読む
ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit
要約 ESPnet-ST-v2 は、音声言語翻訳コミュニティの関心の拡大によって … 続きを読む
Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment
要約 構音障害は、人間の音声システムに障害を引き起こし、音声の質と明瞭度を低下さ … 続きを読む
Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments
要約 実際のアプリケーションでは、特に増分生成が必要なストリーミング シナリオで … 続きを読む