eess.AS」カテゴリーアーカイブ

Expressive Acoustic Guitar Sound Synthesis with an Instrument-Specific Input Representation and Diffusion Outpainting

要約 演奏用のギターサウンドを合成することは、同時発音数が多く表現の多様性が大き … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | Expressive Acoustic Guitar Sound Synthesis with an Instrument-Specific Input Representation and Diffusion Outpainting はコメントを受け付けていません

Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired Users using Intermediate ASR Features and Human Memory Models

要約 ニューラル ネットワークは、非侵入的な音声明瞭度の予測に使用されて成功して … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired Users using Intermediate ASR Features and Human Memory Models はコメントを受け付けていません

Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study

要約 大規模モデルの時代では、デコードの自己回帰的な性質により、レイテンシーが重 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study はコメントを受け付けていません

Multilingual acoustic word embeddings for zero-resource languages

要約 この研究は、ラベル付きデータのないゼロリソース言語向けの音声アプリケーショ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Multilingual acoustic word embeddings for zero-resource languages はコメントを受け付けていません

Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

要約 話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization はコメントを受け付けていません

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation

要約 拡張現実 (AR) デバイスは、著名なモバイル インタラクション プラット … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation はコメントを受け付けていません

NEUROSEC: FPGA-Based Neuromorphic Audio Security

要約 人間の脳の複雑さと機能からインスピレーションを得たニューロモーフィック シ … 続きを読む

カテゴリー: cs.CR, cs.ET, cs.LG, cs.NE, cs.SD, eess.AS | NEUROSEC: FPGA-Based Neuromorphic Audio Security はコメントを受け付けていません

Resource-constrained stereo singing voice cancellation

要約 我々は、音楽ソース分離のサブタスクであるステレオ歌声キャンセルの問題を研究 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Resource-constrained stereo singing voice cancellation はコメントを受け付けていません

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

要約 このペーパーでは、大規模言語モデル (LLM) を利用して話者ダイアライゼ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | DiarizationLM: Speaker Diarization Post-Processing with Large Language Models はコメントを受け付けていません

Streaming Bilingual End-to-End ASR model using Attention over Multiple Softmax

要約 多言語モデリングがいくつか進歩したとしても、入力言語を知らずに単一のニュー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Streaming Bilingual End-to-End ASR model using Attention over Multiple Softmax はコメントを受け付けていません