「eess.AS」カテゴリーアーカイブ

LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation

投稿日: 2024年9月16日作成者: jarxiv

要約音声情報を大規模言語モデル (LLM) に統合する最近の進歩により、自動音 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling

投稿日: 2024年9月16日作成者: jarxiv

要約音声韻律モデリングにおける一般的なアプローチのほとんどは、参照音声の属性を … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training

投稿日: 2024年9月16日作成者: jarxiv

要約音声の自己監視型事前トレーニングは、下流のタスクのパフォーマンスを効果的に … 続きを読む →

カテゴリー: cs.AI, cs.CL, eess.AS | コメントを受け付けていません

Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR

投稿日: 2024年9月16日作成者: jarxiv

要約自己教師あり学習 (SSL) ベースの離散音声表現は非常にコンパクトで、ド … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Exploring SSL Discrete Tokens for Multilingual ASR

投稿日: 2024年9月16日作成者: jarxiv

要約音声関連タスクにおける自己教師あり学習 (SSL) の進歩に伴い、より高速 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages

投稿日: 2024年9月16日作成者: jarxiv

要約この研究では、絶滅危惧種の 2 つのオーストロネシア語、アミ語とセデクに焦 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Towards Leveraging Contrastively Pretrained Neural Audio Embeddings for Recommender Tasks

投稿日: 2024年9月16日作成者: jarxiv

要約音楽レコメンダーシステムは、音楽作品、アーティスト、ユーザー間の関係を把 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis

投稿日: 2024年9月13日作成者: jarxiv

要約ドメイン外 (OOD) 歌声合成 (SVS) のためのスタイル転送は、リフ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Full-text Error Correction for Chinese Speech Recognition with Large Language Model

投稿日: 2024年9月13日作成者: jarxiv

要約大規模言語モデル (LLM) は、自動音声認識 (ASR) におけるエラー … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

A corpus-based investigation of pitch contours of monosyllabic words in conversational Taiwan Mandarin

投稿日: 2024年9月13日作成者: jarxiv

要約中国語では、単独で、または注意して話したときに生成される単音節単語の音調の … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation

Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling

NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training

Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR

Exploring SSL Discrete Tokens for Multilingual ASR

Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages

Towards Leveraging Contrastively Pretrained Neural Audio Embeddings for Recommender Tasks

StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis

Full-text Error Correction for Chinese Speech Recognition with Large Language Model

A corpus-based investigation of pitch contours of monosyllabic words in conversational Taiwan Mandarin

最近の投稿

最近のコメント

アーカイブ

カテゴリー