「eess.AS」カテゴリーアーカイブ

Scaling Speech-Text Pre-training with Synthetic Interleaved Data

投稿日: 2024年12月3日作成者: jarxiv

要約音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

投稿日: 2024年12月3日作成者: jarxiv

要約話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning

投稿日: 2024年12月2日作成者: jarxiv

要約このペーパーでは、ネットワーク化された IoT スタイルのオーディオデバ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities

投稿日: 2024年12月2日作成者: jarxiv

要約ワンショット音声変換 (VC) は、元のソース音声の意味内容を保持しながら … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures

投稿日: 2024年12月2日作成者: jarxiv

要約この論文では、音楽幹の検索のタスクに取り組みます。音楽ミックスが与えられ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Scaling Transformers for Low-Bitrate High-Quality Speech Coding

投稿日: 2024年12月2日作成者: jarxiv

要約ニューラルオーディオコーデックモデルを使用した音声のトークン化は、単 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Multiple Choice Learning for Efficient Speech Separation with Many Speakers

投稿日: 2024年11月28日作成者: jarxiv

要約教師付き設定で音声分離モデルをトレーニングすると、モデルの予測とグラウンド … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ML | コメントを受け付けていません

How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario

投稿日: 2024年11月28日作成者: jarxiv

要約音声の自己教師あり学習 (SSL) モデルを利用すると、自動音声認識 (A … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

投稿日: 2024年11月28日作成者: jarxiv

要約オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation

投稿日: 2024年11月28日作成者: jarxiv

要約第 2 言語 (L2) の学習者は、L2 の母語話者がこれらの音を別個で交 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS, H.5.5 | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Scaling Speech-Text Pre-training with Synthetic Interleaved Data

End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning

Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities

Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures

Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Multiple Choice Learning for Efficient Speech Separation with Many Speakers

How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation

最近の投稿

最近のコメント

アーカイブ

カテゴリー