「eess.AS」カテゴリーアーカイブ

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models

投稿日: 2023年10月19日作成者: jarxiv

要約 AI を活用した音楽処理は、生成タスク (音色合成など) から理解タスク … 続きを読む →

カテゴリー: cs.CL, cs.MM, eess.AS | コメントを受け付けていません

DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification

投稿日: 2023年10月19日作成者: jarxiv

要約データ拡張は、ディープニューラルネットワーク (DNN) モデルの汎化 … 続きを読む →

カテゴリー: cs.AI, eess.AS | コメントを受け付けていません

Analysis and Detection of Pathological Voice using Glottal Source Features

投稿日: 2023年10月18日作成者: jarxiv

要約音声の病状を自動検出することで、客観的な評価と早期の診断介入が可能になりま … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Wav2vec-based Detection and Severity Level Classification of Dysarthria from Speech

投稿日: 2023年10月18日作成者: jarxiv

要約音響音声信号から直接、構音障害を自動検出および重症度レベル分類することは、 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation

投稿日: 2023年10月18日作成者: jarxiv

要約エンドツーエンドの音声言語理解 (SLU) は、テキストと音声に関する現在 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles

投稿日: 2023年10月18日作成者: jarxiv

要約音声ベースのインターフェイスは、ウェイクアップワードメカニズムに依存し … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism

投稿日: 2023年10月18日作成者: jarxiv

要約一般的な耐ノイズ性および耐残響性定位アルゴリズムは、主に、スピーカーのアイ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism

投稿日: 2023年10月17日作成者: jarxiv

要約一般的な耐ノイズ性および耐残響性定位アルゴリズムは、主に、話者のアイデンテ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis

投稿日: 2023年10月17日作成者: jarxiv

要約視聴覚シーンを記録する機械は、新しい位置や新しい視点で、現実的で一致する視 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | コメントを受け付けていません

Soundify: Matching Sound Effects to Video

投稿日: 2023年10月16日作成者: jarxiv

要約ビデオ編集の分野では、サウンドはオブジェクトに個性を加え、視聴者を空間に没 … 続きを読む →

カテゴリー: cs.CV, cs.HC, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models

DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification

Analysis and Detection of Pathological Voice using Glottal Source Features

Wav2vec-based Detection and Severity Level Classification of Dysarthria from Speech

The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation

Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles

LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism

LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis

Soundify: Matching Sound Effects to Video

最近の投稿

最近のコメント

アーカイブ

カテゴリー