cs.SD」カテゴリーアーカイブ

Emotional Voice Messages (EMOVOME) database: emotion recognition in spontaneous voice messages

要約 Emotional Voice Messages (EMOVOME) は、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 | Emotional Voice Messages (EMOVOME) database: emotion recognition in spontaneous voice messages はコメントを受け付けていません

SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation

要約 私たちは、ソング作曲用に設計された革新的な LLM である SongCom … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation はコメントを受け付けていません

Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech

要約 音声品質の推定は最近、人間の聴覚の専門家による設計から機械学習モデルへのパ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech はコメントを受け付けていません

A Survey of Music Generation in the Context of Interaction

要約 近年、機械学習、特に敵対的生成ニューラル ネットワーク (GAN) と注意 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | A Survey of Music Generation in the Context of Interaction はコメントを受け付けていません

Perceptual Musical Features for Interpretable Audio Tagging

要約 音楽ストリーミング プラットフォームの時代では、音楽オーディオに自動的にタ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Perceptual Musical Features for Interpretable Audio Tagging はコメントを受け付けていません

PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model

要約 この論文では、補助調整信号として明示的な周期信号を組み込んだノイズ除去拡散 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model はコメントを受け付けていません

Training dynamic models using early exits for automatic speech recognition on resource-constrained devices

要約 推論中にニューラル モデルの計算負荷を動的に調整する機能は、限られた時間変 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Training dynamic models using early exits for automatic speech recognition on resource-constrained devices はコメントを受け付けていません

Reconstruction of Sound Field through Diffusion Models

要約 室内の音場の再構築は、音響制御や拡張 (AR) または仮想現実 (VR) … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | Reconstruction of Sound Field through Diffusion Models はコメントを受け付けていません

Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads

要約 自己教師あり学習 (SSL) は、ラベルのない音声の大規模なデータセットを … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads はコメントを受け付けていません

Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges

要約 Shazam のような先駆者に代表されるオーディオ フィンガープリンティン … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges はコメントを受け付けていません