eess.AS」カテゴリーアーカイブ

Predicting Music Hierarchies with a Graph-Based Neural Decoder

要約 この論文では、音楽シーケンスを依存関係ツリーに解析するためのデータ駆動型フ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Predicting Music Hierarchies with a Graph-Based Neural Decoder はコメントを受け付けていません

High-Quality Automatic Voice Over with Accurate Alignment: Supervision through Self-Supervised Discrete Speech Units

要約 自動ボイスオーバー (AVO) の目標は、指定されたテキスト スクリプトに … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | High-Quality Automatic Voice Over with Accurate Alignment: Supervision through Self-Supervised Discrete Speech Units はコメントを受け付けていません

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

要約 LyricWhiz は、ロックやメタルなどの難しいジャンルでも、さまざまな … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT はコメントを受け付けていません

Confidence-based Ensembles of End-to-End Speech Recognition Models

要約 エンドツーエンドの音声認識モデルの数は年々増加しています。 これらのモデル … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | Confidence-based Ensembles of End-to-End Speech Recognition Models はコメントを受け付けていません

Prompting Large Language Models for Zero-Shot Domain Adaptation in Speech Recognition

要約 言語モデル (LM) の統合は、音声認識におけるドメインの変化に対処する効 … 続きを読む

カテゴリー: cs.CL, eess.AS, eess.SP | Prompting Large Language Models for Zero-Shot Domain Adaptation in Speech Recognition はコメントを受け付けていません

Accelerating Transducers through Adjacent Token Merging

要約 最近のエンドツーエンドの自動音声認識 (ASR) システムでは、高フレーム … 続きを読む

カテゴリー: cs.CL, eess.AS, eess.SP | Accelerating Transducers through Adjacent Token Merging はコメントを受け付けていません

Long-term Conversation Analysis: Exploring Utility and Privacy

要約 日常生活で記録された会話の分析にはプライバシーの保護が必要です。 この寄稿 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Long-term Conversation Analysis: Exploring Utility and Privacy はコメントを受け付けていません

DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer

要約 中立的な TTS は大きな成功を収めましたが、コンテンツの漏洩は依然として … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer はコメントを受け付けていません

Improving Primate Sounds Classification using Binary Presorting for Deep Learning

要約 野生動物の観察と保護の分野では、音声録音の機械学習を伴うアプローチがますま … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Improving Primate Sounds Classification using Binary Presorting for Deep Learning はコメントを受け付けていません

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

要約 オーディオビジュアル音声認識は、音響ノイズに対する堅牢性により多くの注目を … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels はコメントを受け付けていません