「eess.AS」カテゴリーアーカイブ

Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition

投稿日: 2024年11月15日作成者: jarxiv

要約エッジまたはモノのインターネット (IoT) デバイスでの機械学習モデルの … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models

投稿日: 2024年11月14日作成者: jarxiv

要約 Speech Large Language Model (Speech L … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Investigating the Effectiveness of Explainability Methods in Parkinson’s Detection from Speech

投稿日: 2024年11月14日作成者: jarxiv

要約パーキンソン病 (PD) における言語障害は、診断の重要な初期指標となりま … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Investigating the Effectiveness of Explainability Methods in Parkinson’s Detection from Speech

投稿日: 2024年11月13日作成者: jarxiv

要約パーキンソン病 (PD) における言語障害は、診断の重要な初期指標となりま … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model

投稿日: 2024年11月13日作成者: jarxiv

要約音声強調はさまざまなアプリケーションで重要な役割を果たしており、視覚情報の … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Diffusion Models for Audio Restoration

投稿日: 2024年11月12日作成者: jarxiv

要約オーディオ再生デバイスの発展と高速データ伝送に伴い、エンターテインメントと … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Electroencephalogram-based Multi-class Decoding of Attended Speakers’ Direction with Audio Spatial Spectrum

投稿日: 2024年11月12日作成者: jarxiv

要約聴取者の脳波 (EEG) 信号から聴取者の焦点の指向性を解読することは、聴 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Building a Taiwanese Mandarin Spoken Language Model: A First Attempt

投稿日: 2024年11月12日作成者: jarxiv

要約この技術レポートでは、台湾華語の音声大規模言語モデル (LLM) を構築す … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics

投稿日: 2024年11月12日作成者: jarxiv

要約テキストと音声で促される大規模言語モデル (LLM) は、スピーチ、音楽、 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Tell What You Hear From What You See — Video to Audio Generation Through Text

投稿日: 2024年11月11日作成者: jarxiv

要約ビジュアルシーンとオーディオシーンのコンテンツは多面的であり、ビデオと … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition

A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models

Investigating the Effectiveness of Explainability Methods in Parkinson’s Detection from Speech

Investigating the Effectiveness of Explainability Methods in Parkinson’s Detection from Speech

SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model

Diffusion Models for Audio Restoration

Electroencephalogram-based Multi-class Decoding of Attended Speakers’ Direction with Audio Spatial Spectrum

Building a Taiwanese Mandarin Spoken Language Model: A First Attempt

NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics

Tell What You Hear From What You See — Video to Audio Generation Through Text

最近の投稿

最近のコメント

アーカイブ

カテゴリー