「eess.AS」カテゴリーアーカイブ

SonicBoom: Contact Localization Using Array of Microphones

投稿日: 2024年12月16日作成者: jarxiv

要約農業環境など、視覚センサーが重度の遮蔽に遭遇する乱雑な環境では、触覚信号は … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models

投稿日: 2024年12月16日作成者: jarxiv

要約音声質問応答 (AQA) タスクには、音声イベント分類、音声キャプション、 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models

投稿日: 2024年12月16日作成者: jarxiv

要約前回の研究では、教師付き離散音声トークンに基づく多言語音声合成モデルである … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Learned Compression for Compressed Learning

投稿日: 2024年12月13日作成者: jarxiv

要約最新のセンサーは、ますます豊富な高解像度データのストリームを生成します。 … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.AS, eess.IV, eess.SP | コメントを受け付けていません

Missing Melodies: AI Music Generation and its ‘Nearly’ Complete Omission of the Global South

投稿日: 2024年12月13日作成者: jarxiv

要約生成 AI の最近の進歩により、音楽生成に対する新たな関心と可能性が広がり … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Audios Don’t Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection

投稿日: 2024年12月13日作成者: jarxiv

要約人工知能技術の急速な発展に伴い、オーディオ分野でのディープフェイク技術の適 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Watermarking Training Data of Music Generation Models

投稿日: 2024年12月13日作成者: jarxiv

要約生成人工知能 (Gen-AI) モデルは、テキスト、画像、オーディオなどの … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations

投稿日: 2024年12月13日作成者: jarxiv

要約テキスト読み上げ (TTS) テクノロジーの進歩により、生成される音声の品 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Watermarking Training Data of Music Generation Models

投稿日: 2024年12月12日作成者: jarxiv

要約生成人工知能 (Gen-AI) モデルは、テキスト、画像、オーディオなどの … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

A Preliminary Analysis of Automatic Word and Syllable Prominence Detection in Non-Native Speech With Text-to-Speech Prosody Embeddings

投稿日: 2024年12月12日作成者: jarxiv

要約単語および音節レベルでのプロミネンスの自動検出は、コンピューター支援言語学 … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

SonicBoom: Contact Localization Using Array of Microphones

Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models

CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models

Learned Compression for Compressed Learning

Missing Melodies: AI Music Generation and its ‘Nearly’ Complete Omission of the Global South

Audios Don’t Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection

Watermarking Training Data of Music Generation Models

EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations

Watermarking Training Data of Music Generation Models

A Preliminary Analysis of Automatic Word and Syllable Prominence Detection in Non-Native Speech With Text-to-Speech Prosody Embeddings

最近の投稿

最近のコメント

アーカイブ

カテゴリー