「eess.AS」カテゴリーアーカイブ

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

投稿日: 2023年6月30日作成者: jarxiv

要約 LyricWhiz は、ロックやメタルなどの難しいジャンルでも、さまざまな … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Confidence-based Ensembles of End-to-End Speech Recognition Models

投稿日: 2023年6月29日作成者: jarxiv

要約エンドツーエンドの音声認識モデルの数は年々増加しています。これらのモデル … 続きを読む →

カテゴリー: cs.CL, cs.LG, eess.AS | コメントを受け付けていません

Prompting Large Language Models for Zero-Shot Domain Adaptation in Speech Recognition

投稿日: 2023年6月29日作成者: jarxiv

要約言語モデル (LM) の統合は、音声認識におけるドメインの変化に対処する効 … 続きを読む →

カテゴリー: cs.CL, eess.AS, eess.SP | コメントを受け付けていません

Accelerating Transducers through Adjacent Token Merging

投稿日: 2023年6月29日作成者: jarxiv

要約最近のエンドツーエンドの自動音声認識 (ASR) システムでは、高フレーム … 続きを読む →

カテゴリー: cs.CL, eess.AS, eess.SP | コメントを受け付けていません

Long-term Conversation Analysis: Exploring Utility and Privacy

投稿日: 2023年6月29日作成者: jarxiv

要約日常生活で記録された会話の分析にはプライバシーの保護が必要です。この寄稿 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer

投稿日: 2023年6月29日作成者: jarxiv

要約中立的な TTS は大きな成功を収めましたが、コンテンツの漏洩は依然として … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Improving Primate Sounds Classification using Binary Presorting for Deep Learning

投稿日: 2023年6月29日作成者: jarxiv

要約野生動物の観察と保護の分野では、音声録音の機械学習を伴うアプローチがますま … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

投稿日: 2023年6月29日作成者: jarxiv

要約オーディオビジュアル音声認識は、音響ノイズに対する堅牢性により多くの注目を … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

投稿日: 2023年6月29日作成者: jarxiv

要約音声発話内の相関関係のない情報を解きほぐすことは、音声コミュニティ内での重 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

WACO: Word-Aligned Contrastive Learning for Speech Translation

投稿日: 2023年6月28日作成者: jarxiv

要約エンドツーエンド音声翻訳 (E2E ST) は、ソース音声をターゲットテ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

Confidence-based Ensembles of End-to-End Speech Recognition Models

Prompting Large Language Models for Zero-Shot Domain Adaptation in Speech Recognition

Accelerating Transducers through Adjacent Token Merging

Long-term Conversation Analysis: Exploring Utility and Privacy

DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer

Improving Primate Sounds Classification using Binary Presorting for Deep Learning

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

WACO: Word-Aligned Contrastive Learning for Speech Translation

最近の投稿

最近のコメント

アーカイブ

カテゴリー