「eess.AS」カテゴリーアーカイブ

Scenario of Use Scheme: Threat Model Specification for Speaker Privacy Protection in the Medical Domain

投稿日: 2024年9月26日作成者: jarxiv

要約病気の検出や監視のために音声録音が頻繁に使用されるようになり、プライバシー … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.SD, eess.AS | コメントを受け付けていません

Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech

投稿日: 2024年9月26日作成者: jarxiv

要約 FEIM-TTS は、顔画像に合わせて感情の強さによって調整され、感情表現 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

投稿日: 2024年9月25日作成者: jarxiv

要約ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

投稿日: 2024年9月24日作成者: jarxiv

要約ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

ASR Benchmarking: Need for a More Representative Conversational Dataset

投稿日: 2024年9月19日作成者: jarxiv

要約自動音声認識 (ASR) システムは、LibriSpeech や Fleu … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference

投稿日: 2024年9月19日作成者: jarxiv

要約大規模言語モデル (LLM) は、オーディオを個別のトークンに変換するオー … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Pareto Data Framework: Steps Towards Resource-Efficient Decision Making Using Minimum Viable Data (MVD)

投稿日: 2024年9月19日作成者: jarxiv

要約このペーパーでは、組み込みシステム、モバイルデバイス、モノのインターネッ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

投稿日: 2024年9月19日作成者: jarxiv

要約ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

HLTCOE JHU Submission to the Voice Privacy Challenge 2024

投稿日: 2024年9月18日作成者: jarxiv

要約我々は、kNN-VC 法や WavLM 音声変換法などの音声変換ベースのシ … 続きを読む →

カテゴリー: cs.LG, eess.AS | コメントを受け付けていません

LC-Protonets: Multi-label Few-shot learning for world music audio tagging

投稿日: 2024年9月18日作成者: jarxiv

要約我々は、モデルを少数の利用可能な例のみに基づいて新しいクラスに一般化する必 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Scenario of Use Scheme: Threat Model Specification for Speaker Privacy Protection in the Medical Domain

Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

ASR Benchmarking: Need for a More Representative Conversational Dataset

Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference

Pareto Data Framework: Steps Towards Resource-Efficient Decision Making Using Minimum Viable Data (MVD)

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

HLTCOE JHU Submission to the Voice Privacy Challenge 2024

LC-Protonets: Multi-label Few-shot learning for world music audio tagging

最近の投稿

最近のコメント

アーカイブ

カテゴリー