「eess.AS」カテゴリーアーカイブ

Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering

投稿日: 2023年3月21日作成者: jarxiv

要約話者ダイアライゼーションにおける最近の研究の進歩は、主にダイアライゼーショ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

A Deep Learning System for Domain-specific speech Recognition

投稿日: 2023年3月21日作成者: jarxiv

要約人間と機械の音声インターフェイスにより、ますますインテリジェントになる機械 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Relate auditory speech to EEG by shallow-deep attention-based network

投稿日: 2023年3月21日作成者: jarxiv

要約脳波 (EEG) は、脳がさまざまな刺激にどのように反応するかを検出する上 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS, q-bio.NC | コメントを受け付けていません

Exploring Representation Learning for Small-Footprint Keyword Spotting

投稿日: 2023年3月21日作成者: jarxiv

要約この論文では、低リソースキーワードスポッティング (KWS) の表現学 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

On-the-fly Text Retrieval for End-to-End ASR Adaptation

投稿日: 2023年3月21日作成者: jarxiv

要約エンドツーエンドの音声認識モデルは、通常は外部言語モデルとの融合によっ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Code-Switching Text Generation and Injection in Mandarin-English ASR

投稿日: 2023年3月21日作成者: jarxiv

要約コードスイッチング音声とは、1 つの発話内で 2 つ以上の言語を混合するこ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Cocktail HuBERT: Generalized Self-Supervised Pre-training for Mixture and Single-Source Speech

投稿日: 2023年3月21日作成者: jarxiv

要約自己教師あり学習は、ラベル付けされていないデータを効果的に活用し、ラベル付 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Multitrack Music Transformer

投稿日: 2023年3月21日作成者: jarxiv

要約変圧器モデルを使用してマルチトラック音楽を生成するための既存のアプローチは … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Dual-stream Time-Delay Neural Network with Dynamic Global Filter for Speaker Verification

投稿日: 2023年3月21日作成者: jarxiv

要約時間遅延ニューラルネットワーク (TDNN) は、テキストに依存しない話 … 続きを読む →

カテゴリー: 68, cs.AI, cs.SD, eess.AS, I.2.1 | コメントを受け付けていません

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

投稿日: 2023年3月21日作成者: jarxiv

要約私たちが知覚する画像と音は、頭を回転させると、微妙ではあるが幾何学的に一貫 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering

A Deep Learning System for Domain-specific speech Recognition

Relate auditory speech to EEG by shallow-deep attention-based network

Exploring Representation Learning for Small-Footprint Keyword Spotting

On-the-fly Text Retrieval for End-to-End ASR Adaptation

Code-Switching Text Generation and Injection in Mandarin-English ASR

Cocktail HuBERT: Generalized Self-Supervised Pre-training for Mixture and Single-Source Speech

Multitrack Music Transformer

Dual-stream Time-Delay Neural Network with Dynamic Global Filter for Speaker Verification

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

最近の投稿

最近のコメント

アーカイブ

カテゴリー