eess.AS」カテゴリーアーカイブ

Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation

要約 TTS モデルは急速に進歩していますが、一貫した堅牢な人間による評価フレー … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントする

DARNet: Dual Attention Refinement Network with Spatiotemporal Construction for Auditory Attention Detection

要約 カクテルパーティーでは、人間は注意を向ける驚くべき能力を発揮します。 聴覚 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントする

REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR

要約 教師なし自動音声認識 (ASR) は、音声とテキストのペアのデータを監視せ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

Local deployment of large-scale music AI models on commodity hardware

要約 私たちは、汎用ハードウェア上でローカルに大規模な生成 AI モデルを使用し … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | コメントする

Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition

要約 エッジまたはモノのインターネット (IoT) デバイスでの機械学習モデルの … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models

要約 Speech Large Language Model (Speech L … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

Investigating the Effectiveness of Explainability Methods in Parkinson’s Detection from Speech

要約 パーキンソン病 (PD) における言語障害は、診断の重要な初期指標となりま … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントする

Investigating the Effectiveness of Explainability Methods in Parkinson’s Detection from Speech

要約 パーキンソン病 (PD) における言語障害は、診断の重要な初期指標となりま … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントする

SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model

要約 音声強調はさまざまなアプリケーションで重要な役割を果たしており、視覚情報の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントする

Diffusion Models for Audio Restoration

要約 オーディオ再生デバイスの発展と高速データ伝送に伴い、エンターテインメントと … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | コメントする