cs.SD」カテゴリーアーカイブ

Speech Foundation Models and Crowdsourcing for Efficient, High-Quality Data Collection

要約 クラウドソーシングは音声データの収集を容易にし、拡張するための確立されたソ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Speech Foundation Models and Crowdsourcing for Efficient, High-Quality Data Collection はコメントを受け付けていません

autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks

要約 この研究では、コンピューターオーディションタスク用の新しい深層学習トレーニ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks はコメントを受け付けていません

SonicBoom: Contact Localization Using Array of Microphones

要約 農業環境など、視覚センサーが重度の遮蔽に遭遇する乱雑な環境では、触覚信号は … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | SonicBoom: Contact Localization Using Array of Microphones はコメントを受け付けていません

Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models

要約 音声質問応答 (AQA) タスクには、音声イベント分類、音声キャプション、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models はコメントを受け付けていません

CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models

要約 前回の研究では、教師付き離散音声トークンに基づく多言語音声合成モデルである … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models はコメントを受け付けていません

Missing Melodies: AI Music Generation and its ‘Nearly’ Complete Omission of the Global South

要約 生成 AI の最近の進歩により、音楽生成に対する新たな関心と可能性が広がり … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Missing Melodies: AI Music Generation and its ‘Nearly’ Complete Omission of the Global South はコメントを受け付けていません

Audios Don’t Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection

要約 人工知能技術の急速な発展に伴い、オーディオ分野でのディープフェイク技術の適 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Audios Don’t Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection はコメントを受け付けていません

Watermarking Training Data of Music Generation Models

要約 生成人工知能 (Gen-AI) モデルは、テキスト、画像、オーディオなどの … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Watermarking Training Data of Music Generation Models はコメントを受け付けていません

EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations

要約 テキスト読み上げ (TTS) テクノロジーの進歩により、生成される音声の品 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations はコメントを受け付けていません

Watermarking Training Data of Music Generation Models

要約 生成人工知能 (Gen-AI) モデルは、テキスト、画像、オーディオなどの … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Watermarking Training Data of Music Generation Models はコメントを受け付けていません