eess.AS」カテゴリーアーカイブ

BATON: Aligning Text-to-Audio Model with Human Preference Feedback

要約 AI 生成コンテンツ (AIGC) の開発に伴い、テキスト音声変換モデルが … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | BATON: Aligning Text-to-Audio Model with Human Preference Feedback はコメントを受け付けていません

Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters

要約 Mixture of Experts (MoE) アーキテクチャは、手頃な … 続きを読む

カテゴリー: cs.AI, eess.AS | Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters はコメントを受け付けていません

What Do Self-Supervised Speech and Speaker Models Learn? New Findings From a Cross Model Layer-Wise Analysis

要約 自己教師あり学習 (SSL) は、意味のある音声表現を学習するためにますま … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | What Do Self-Supervised Speech and Speaker Models Learn? New Findings From a Cross Model Layer-Wise Analysis はコメントを受け付けていません

Do self-supervised speech and language models extract similar representations as human brain?

要約 自己教師あり学習 (SSL) を通じてトレーニングされた音声および言語モデ … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS, q-bio.NC | Do self-supervised speech and language models extract similar representations as human brain? はコメントを受け付けていません

Revisiting speech segmentation and lexicon learning with better features

要約 ラベルのない音声を単語のようなセグメントに分割する自己教師ありの方法を再検 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Revisiting speech segmentation and lexicon learning with better features はコメントを受け付けていません

SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition

要約 言語モデルの最近の進歩により、複数の音声関連タスクのパフォーマンスが大幅に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition はコメントを受け付けていません

Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach

要約 オーディオ帯域幅の拡張には、帯域制限された観測からの高周波スペクトルの現実 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach はコメントを受け付けていません

Textually Pretrained Speech Language Models

要約 音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Textually Pretrained Speech Language Models はコメントを受け付けていません

SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention

要約 ゼロショット音声変換 (VC) は、言語内容を変更せずに、ソース スピーカ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention はコメントを受け付けていません

A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion

要約 歌声変換 (SVC) は、ある歌手の歌声を、元の歌詞とメロディーを備えた別 … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.LG, cs.MM, cs.SD, eess.AS | A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion はコメントを受け付けていません