「cs.SD」カテゴリーアーカイブ

CTC-based Non-autoregressive Textless Speech-to-Speech Translation

投稿日: 2024年6月12日作成者: jarxiv

要約直接音声間翻訳 (S2ST) は優れた翻訳品質を実現していますが、音声シー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

Enhancing CTC-based speech recognition with diverse modeling units

投稿日: 2024年6月12日作成者: jarxiv

要約近年、トランスフォーマーなどの深層学習アーキテクチャの進歩により、エンドツ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP

投稿日: 2024年6月12日作成者: jarxiv

要約表現力豊かで制御可能な Text-to-Speech (TTS) では、明 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Hearing Anything Anywhere

投稿日: 2024年6月12日作成者: jarxiv

要約近年、3D コンピュータビジョンとコンピュータグラフィックスが大幅に進 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS, I.2.10 | コメントを受け付けていません

mHuBERT-147: A Compact Multilingual HuBERT Model

投稿日: 2024年6月12日作成者: jarxiv

要約我々は、90,000 時間のクリーンなオープンライセンスデータでトレーニ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

mHuBERT-147: A Compact Multilingual HuBERT Model

投稿日: 2024年6月11日作成者: jarxiv

要約我々は、90,000 時間のクリーンなオープンライセンスデータでトレーニ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Meta Learning Text-to-Speech Synthesis in over 7000 Languages

投稿日: 2024年6月11日作成者: jarxiv

要約この研究では、7,000 以上の言語で音声を生成できる単一のテキスト音声合 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Controlling Emotion in Text-to-Speech with Natural Language Prompts

投稿日: 2024年6月11日作成者: jarxiv

要約近年、プロンプトは自然言語を直感的に使用できるため、生成機械学習モデルの出 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MOSA: Music Motion with Semantic Annotation Dataset for Cross-Modal Music Processing

投稿日: 2024年6月11日作成者: jarxiv

要約クロスモーダル音楽処理では、視覚、聴覚、および意味論的なコンテンツ間の変換 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Multimodal Contextualized Semantic Parsing from Speech

投稿日: 2024年6月11日作成者: jarxiv

要約マルチモーダル入力を以前のコンテキストと統合することで人工エージェントのコ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.HC, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

CTC-based Non-autoregressive Textless Speech-to-Speech Translation

Enhancing CTC-based speech recognition with diverse modeling units

Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP

Hearing Anything Anywhere

mHuBERT-147: A Compact Multilingual HuBERT Model

mHuBERT-147: A Compact Multilingual HuBERT Model

Meta Learning Text-to-Speech Synthesis in over 7000 Languages

Controlling Emotion in Text-to-Speech with Natural Language Prompts

MOSA: Music Motion with Semantic Annotation Dataset for Cross-Modal Music Processing

Multimodal Contextualized Semantic Parsing from Speech

最近の投稿

最近のコメント

アーカイブ

カテゴリー