eess.AS」カテゴリーアーカイブ

A Survey of Music Generation in the Context of Interaction

要約 近年、機械学習、特に敵対的生成ニューラル ネットワーク (GAN) と注意 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | A Survey of Music Generation in the Context of Interaction はコメントを受け付けていません

Perceptual Musical Features for Interpretable Audio Tagging

要約 音楽ストリーミング プラットフォームの時代では、音楽オーディオに自動的にタ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Perceptual Musical Features for Interpretable Audio Tagging はコメントを受け付けていません

PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model

要約 この論文では、補助調整信号として明示的な周期信号を組み込んだノイズ除去拡散 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model はコメントを受け付けていません

Training dynamic models using early exits for automatic speech recognition on resource-constrained devices

要約 推論中にニューラル モデルの計算負荷を動的に調整する機能は、限られた時間変 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Training dynamic models using early exits for automatic speech recognition on resource-constrained devices はコメントを受け付けていません

Reconstruction of Sound Field through Diffusion Models

要約 室内の音場の再構築は、音響制御や拡張 (AR) または仮想現実 (VR) … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | Reconstruction of Sound Field through Diffusion Models はコメントを受け付けていません

Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads

要約 自己教師あり学習 (SSL) は、ラベルのない音声の大規模なデータセットを … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads はコメントを受け付けていません

Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges

要約 Shazam のような先駆者に代表されるオーディオ フィンガープリンティン … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges はコメントを受け付けていません

A multimodal dynamical variational autoencoder for audiovisual speech representation learning

要約 この論文では、教師なし視聴覚音声表現学習に適用されるマルチモーダルで動的 … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | A multimodal dynamical variational autoencoder for audiovisual speech representation learning はコメントを受け付けていません

Textless Low-Resource Speech-to-Speech Translation With Unit Language Models

要約 既存の音声対音声翻訳モデルは 2 つのグループに分類されます。1 つは数百 … 続きを読む

カテゴリー: cs.CL, eess.AS | Textless Low-Resource Speech-to-Speech Translation With Unit Language Models はコメントを受け付けていません

Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting

要約 テキスト音声合成モデルの適応が動機となっていますが、より一般的なパラメータ … 続きを読む

カテゴリー: cs.LG, eess.AS | Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting はコメントを受け付けていません