「eess.AS」カテゴリーアーカイブ

Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP

投稿日: 2024年6月12日作成者: jarxiv

要約表現力豊かで制御可能な Text-to-Speech (TTS) では、明 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Hearing Anything Anywhere

投稿日: 2024年6月12日作成者: jarxiv

要約近年、3D コンピュータビジョンとコンピュータグラフィックスが大幅に進 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS, I.2.10 | コメントを受け付けていません

mHuBERT-147: A Compact Multilingual HuBERT Model

投稿日: 2024年6月12日作成者: jarxiv

要約我々は、90,000 時間のクリーンなオープンライセンスデータでトレーニ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Parameter-efficient Language Extension Framework for Multilingual ASR

投稿日: 2024年6月11日作成者: jarxiv

要約多言語音声認識モデル (MASR) ですべての言語をカバーすることは非常に … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

mHuBERT-147: A Compact Multilingual HuBERT Model

投稿日: 2024年6月11日作成者: jarxiv

要約我々は、90,000 時間のクリーンなオープンライセンスデータでトレーニ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Meta Learning Text-to-Speech Synthesis in over 7000 Languages

投稿日: 2024年6月11日作成者: jarxiv

要約この研究では、7,000 以上の言語で音声を生成できる単一のテキスト音声合 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Controlling Emotion in Text-to-Speech with Natural Language Prompts

投稿日: 2024年6月11日作成者: jarxiv

要約近年、プロンプトは自然言語を直感的に使用できるため、生成機械学習モデルの出 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MOSA: Music Motion with Semantic Annotation Dataset for Cross-Modal Music Processing

投稿日: 2024年6月11日作成者: jarxiv

要約クロスモーダル音楽処理では、視覚、聴覚、および意味論的なコンテンツ間の変換 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Multimodal Contextualized Semantic Parsing from Speech

投稿日: 2024年6月11日作成者: jarxiv

要約マルチモーダル入力を以前のコンテキストと統合することで人工エージェントのコ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.HC, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

On the social bias of speech self-supervised models

投稿日: 2024年6月10日作成者: jarxiv

要約自己教師あり学習 (SSL) 音声モデルは、さまざまなタスクで目覚ましいパ … 続きを読む →

カテゴリー: cs.LG, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP

Hearing Anything Anywhere

mHuBERT-147: A Compact Multilingual HuBERT Model

A Parameter-efficient Language Extension Framework for Multilingual ASR

mHuBERT-147: A Compact Multilingual HuBERT Model

Meta Learning Text-to-Speech Synthesis in over 7000 Languages

Controlling Emotion in Text-to-Speech with Natural Language Prompts

MOSA: Music Motion with Semantic Annotation Dataset for Cross-Modal Music Processing

Multimodal Contextualized Semantic Parsing from Speech

On the social bias of speech self-supervised models

最近の投稿

最近のコメント

アーカイブ

カテゴリー