cs.SD」カテゴリーアーカイブ

TTSDS — Text-to-Speech Distribution Score

要約 最近公開された Text-to-Speech (TTS) システムの多くは … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | TTSDS — Text-to-Speech Distribution Score はコメントを受け付けていません

Scaling Speech-Text Pre-training with Synthetic Interleaved Data

要約 音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Scaling Speech-Text Pre-training with Synthetic Interleaved Data はコメントを受け付けていません

End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

要約 話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization はコメントを受け付けていません

Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning

要約 このペーパーでは、ネットワーク化された IoT スタイルのオーディオ デバ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning はコメントを受け付けていません

Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities

要約 ワンショット音声変換 (VC) は、元のソース音声の意味内容を保持しながら … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities はコメントを受け付けていません

Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures

要約 この論文では、音楽幹の検索のタスクに取り組みます。 音楽ミックスが与えられ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures はコメントを受け付けていません

Scaling Transformers for Low-Bitrate High-Quality Speech Coding

要約 ニューラル オーディオ コーデック モデルを使用した音声のトークン化は、単 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | Scaling Transformers for Low-Bitrate High-Quality Speech Coding はコメントを受け付けていません

Multiple Choice Learning for Efficient Speech Separation with Many Speakers

要約 教師付き設定で音声分離モデルをトレーニングすると、モデルの予測とグラウンド … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ML | Multiple Choice Learning for Efficient Speech Separation with Many Speakers はコメントを受け付けていません

How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario

要約 音声の自己教師あり学習 (SSL) モデルを利用すると、自動音声認識 (A … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario はコメントを受け付けていません

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

要約 オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model はコメントを受け付けていません