「eess.AS」カテゴリーアーカイブ

BATON: Aligning Text-to-Audio Model with Human Preference Feedback

投稿日: 2024年2月2日作成者: jarxiv

要約 AI 生成コンテンツ (AIGC) の開発に伴い、テキスト音声変換モデルが … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters

投稿日: 2024年2月2日作成者: jarxiv

要約 Mixture of Experts (MoE) アーキテクチャは、手頃な … 続きを読む →

カテゴリー: cs.AI, eess.AS | コメントを受け付けていません

What Do Self-Supervised Speech and Speaker Models Learn? New Findings From a Cross Model Layer-Wise Analysis

投稿日: 2024年2月1日作成者: jarxiv

要約自己教師あり学習 (SSL) は、意味のある音声表現を学習するためにますま … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Do self-supervised speech and language models extract similar representations as human brain?

投稿日: 2024年2月1日作成者: jarxiv

要約自己教師あり学習 (SSL) を通じてトレーニングされた音声および言語モデ … 続きを読む →

カテゴリー: cs.AI, cs.CL, eess.AS, q-bio.NC | コメントを受け付けていません

Revisiting speech segmentation and lexicon learning with better features

投稿日: 2024年2月1日作成者: jarxiv

要約ラベルのない音声を単語のようなセグメントに分割する自己教師ありの方法を再検 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition

投稿日: 2024年2月1日作成者: jarxiv

要約言語モデルの最近の進歩により、複数の音声関連タスクのパフォーマンスが大幅に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach

投稿日: 2024年1月31日作成者: jarxiv

要約オーディオ帯域幅の拡張には、帯域制限された観測からの高周波スペクトルの現実 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Textually Pretrained Speech Language Models

投稿日: 2024年1月31日作成者: jarxiv

要約音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention

投稿日: 2024年1月31日作成者: jarxiv

要約ゼロショット音声変換 (VC) は、言語内容を変更せずに、ソーススピーカ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion

投稿日: 2024年1月31日作成者: jarxiv

要約歌声変換 (SVC) は、ある歌手の歌声を、元の歌詞とメロディーを備えた別 … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

BATON: Aligning Text-to-Audio Model with Human Preference Feedback

Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters

What Do Self-Supervised Speech and Speaker Models Learn? New Findings From a Cross Model Layer-Wise Analysis

Do self-supervised speech and language models extract similar representations as human brain?

Revisiting speech segmentation and lexicon learning with better features

SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition

Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach

Textually Pretrained Speech Language Models

SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention

A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion

最近の投稿

最近のコメント

アーカイブ

カテゴリー