eess.AS」カテゴリーアーカイブ

The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation

要約 音楽と言語のモデルを評価するために設計された、高品質のオーディオとキャプシ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation はコメントを受け付けていません

R-Spin: Efficient Speaker and Noise-invariant Representation Learning with Acoustic Pieces

要約 この論文では、話者不変クラスタリング (Spin) を使用して離散音響単位 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | R-Spin: Efficient Speaker and Noise-invariant Representation Learning with Acoustic Pieces はコメントを受け付けていません

Can MusicGen Create Training Data for MIR Tasks?

要約 私たちは、AI ベースの音楽生成システムを使用して音楽情報検索 (MIR) … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Can MusicGen Create Training Data for MIR Tasks? はコメントを受け付けていません

Open-vocabulary keyword spotting in any language through multilingual contrastive speech-phoneme pretraining

要約 この論文では、多様な言語族の 115 以上の言語を網羅する、きめ細かい音素 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Open-vocabulary keyword spotting in any language through multilingual contrastive speech-phoneme pretraining はコメントを受け付けていません

Retrieve and Copy: Scaling ASR Personalization to Large Catalogs

要約 自動音声認識 (ASR) モデルのパーソナライゼーションは、多くの実用的な … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS | Retrieve and Copy: Scaling ASR Personalization to Large Catalogs はコメントを受け付けていません

Unified Segment-to-Segment Framework for Simultaneous Sequence Generation

要約 同時シーケンス生成は、ストリーミング音声認識、同時機械翻訳、同時音声翻訳な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Unified Segment-to-Segment Framework for Simultaneous Sequence Generation はコメントを受け付けていません

Exploring Variational Auto-Encoder Architectures, Configurations, and Datasets for Generative Music Explainable AI

要約 音楽や芸術全般の生成 AI モデルはますます複雑になり、理解するのが難しく … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Exploring Variational Auto-Encoder Architectures, Configurations, and Datasets for Generative Music Explainable AI はコメントを受け付けていません

Zero-shot audio captioning with audio-language model guidance and audio context keywords

要約 ゼロショット オーディオ キャプションは、このタスクのための事前トレーニン … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Zero-shot audio captioning with audio-language model guidance and audio context keywords はコメントを受け付けていません

Unsupervised Musical Object Discovery from Audio

要約 人気の SlotAttendant アーキテクチャなどの現在のオブジェクト … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Unsupervised Musical Object Discovery from Audio はコメントを受け付けていません

Unsupervised Musical Object Discovery from Audio

要約 人気の SlotAttendant アーキテクチャなどの現在のオブジェクト … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Unsupervised Musical Object Discovery from Audio はコメントを受け付けていません