「eess.AS」カテゴリーアーカイブ

SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation

投稿日: 2024年2月28日作成者: jarxiv

要約私たちは、ソング作曲用に設計された革新的な LLM である SongCom … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech

投稿日: 2024年2月27日作成者: jarxiv

要約音声品質の推定は最近、人間の聴覚の専門家による設計から機械学習モデルへのパ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

An Automated End-to-End Open-Source Software for High-Quality Text-to-Speech Dataset Generation

投稿日: 2024年2月27日作成者: jarxiv

要約データの可用性は、音声ベースのテクノロジーを含む人工知能アプリケーションの … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | コメントを受け付けていません

A Survey of Music Generation in the Context of Interaction

投稿日: 2024年2月26日作成者: jarxiv

要約近年、機械学習、特に敵対的生成ニューラルネットワーク (GAN) と注意 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Perceptual Musical Features for Interpretable Audio Tagging

投稿日: 2024年2月26日作成者: jarxiv

要約音楽ストリーミングプラットフォームの時代では、音楽オーディオに自動的にタ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model

投稿日: 2024年2月23日作成者: jarxiv

要約この論文では、補助調整信号として明示的な周期信号を組み込んだノイズ除去拡散 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Training dynamic models using early exits for automatic speech recognition on resource-constrained devices

投稿日: 2024年2月23日作成者: jarxiv

要約推論中にニューラルモデルの計算負荷を動的に調整する機能は、限られた時間変 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Reconstruction of Sound Field through Diffusion Models

投稿日: 2024年2月22日作成者: jarxiv

要約室内の音場の再構築は、音響制御や拡張 (AR) または仮想現実 (VR) … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads

投稿日: 2024年2月22日作成者: jarxiv

要約自己教師あり学習 (SSL) は、ラベルのない音声の大規模なデータセットを … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges

投稿日: 2024年2月22日作成者: jarxiv

要約 Shazam のような先駆者に代表されるオーディオフィンガープリンティン … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation

Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech

An Automated End-to-End Open-Source Software for High-Quality Text-to-Speech Dataset Generation

A Survey of Music Generation in the Context of Interaction

Perceptual Musical Features for Interpretable Audio Tagging

PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model

Training dynamic models using early exits for automatic speech recognition on resource-constrained devices

Reconstruction of Sound Field through Diffusion Models

Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads

Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges

最近の投稿

最近のコメント

アーカイブ

カテゴリー