eess.AS」カテゴリーアーカイブ

Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition

要約 エッジまたはモノのインターネット (IoT) デバイスでの機械学習モデルの … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition はコメントを受け付けていません

A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models

要約 Speech Large Language Model (Speech L … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models はコメントを受け付けていません

Investigating the Effectiveness of Explainability Methods in Parkinson’s Detection from Speech

要約 パーキンソン病 (PD) における言語障害は、診断の重要な初期指標となりま … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Investigating the Effectiveness of Explainability Methods in Parkinson’s Detection from Speech はコメントを受け付けていません

Investigating the Effectiveness of Explainability Methods in Parkinson’s Detection from Speech

要約 パーキンソン病 (PD) における言語障害は、診断の重要な初期指標となりま … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Investigating the Effectiveness of Explainability Methods in Parkinson’s Detection from Speech はコメントを受け付けていません

SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model

要約 音声強調はさまざまなアプリケーションで重要な役割を果たしており、視覚情報の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model はコメントを受け付けていません

Diffusion Models for Audio Restoration

要約 オーディオ再生デバイスの発展と高速データ伝送に伴い、エンターテインメントと … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Diffusion Models for Audio Restoration はコメントを受け付けていません

Electroencephalogram-based Multi-class Decoding of Attended Speakers’ Direction with Audio Spatial Spectrum

要約 聴取者の脳波 (EEG) 信号から聴取者の焦点の指向性を解読することは、聴 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Electroencephalogram-based Multi-class Decoding of Attended Speakers’ Direction with Audio Spatial Spectrum はコメントを受け付けていません

Building a Taiwanese Mandarin Spoken Language Model: A First Attempt

要約 この技術レポートでは、台湾華語の音声大規模言語モデル (LLM) を構築す … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Building a Taiwanese Mandarin Spoken Language Model: A First Attempt はコメントを受け付けていません

NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics

要約 テキストと音声で促される大規模言語モデル (LLM) は、スピーチ、音楽、 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics はコメントを受け付けていません

Tell What You Hear From What You See — Video to Audio Generation Through Text

要約 ビジュアル シーンとオーディオ シーンのコンテンツは多面的であり、ビデオと … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS | Tell What You Hear From What You See — Video to Audio Generation Through Text はコメントを受け付けていません