「cs.SD」カテゴリーアーカイブ

Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures

投稿日: 2024年12月2日作成者: jarxiv

要約この論文では、音楽幹の検索のタスクに取り組みます。音楽ミックスが与えられ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Scaling Transformers for Low-Bitrate High-Quality Speech Coding

投稿日: 2024年12月2日作成者: jarxiv

要約ニューラルオーディオコーデックモデルを使用した音声のトークン化は、単 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Multiple Choice Learning for Efficient Speech Separation with Many Speakers

投稿日: 2024年11月28日作成者: jarxiv

要約教師付き設定で音声分離モデルをトレーニングすると、モデルの予測とグラウンド … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ML | コメントを受け付けていません

How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario

投稿日: 2024年11月28日作成者: jarxiv

要約音声の自己教師あり学習 (SSL) モデルを利用すると、自動音声認識 (A … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

投稿日: 2024年11月28日作成者: jarxiv

要約オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation

投稿日: 2024年11月28日作成者: jarxiv

要約第 2 言語 (L2) の学習者は、L2 の母語話者がこれらの音を別個で交 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS, H.5.5 | コメントを受け付けていません

A Suite for Acoustic Language Model Evaluation

投稿日: 2024年11月28日作成者: jarxiv

要約音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation

投稿日: 2024年11月28日作成者: jarxiv

要約自己回帰モデルは通常、離散トークンのシーケンスに適用されますが、最近の研究 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Learning Spatially-Aware Language and Audio Embeddings

投稿日: 2024年11月27日作成者: jarxiv

要約人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くこと … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

WavChat: A Survey of Spoken Dialogue Models

投稿日: 2024年11月27日作成者: jarxiv

要約 GPT-4o などのシステムに代表される音声対話モデルの最近の進歩は、音声 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures

Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Multiple Choice Learning for Efficient Speech Separation with Many Speakers

How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation

A Suite for Acoustic Language Model Evaluation

Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation

Learning Spatially-Aware Language and Audio Embeddings

WavChat: A Survey of Spoken Dialogue Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー