eess.AS」カテゴリーアーカイブ

Cocktail HuBERT: Generalized Self-Supervised Pre-training for Mixture and Single-Source Speech

要約 自己教師あり学習は、ラベル付けされていないデータを効果的に活用し、ラベル付 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Cocktail HuBERT: Generalized Self-Supervised Pre-training for Mixture and Single-Source Speech はコメントを受け付けていません

Multitrack Music Transformer

要約 変圧器モデルを使用してマルチトラック音楽を生成するための既存のアプローチは … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | Multitrack Music Transformer はコメントを受け付けていません

Dual-stream Time-Delay Neural Network with Dynamic Global Filter for Speaker Verification

要約 時間遅延ニューラル ネットワーク (TDNN) は、テキストに依存しない話 … 続きを読む

カテゴリー: 68, cs.AI, cs.SD, eess.AS, I.2.1 | Dual-stream Time-Delay Neural Network with Dynamic Global Filter for Speaker Verification はコメントを受け付けていません

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

要約 私たちが知覚する画像と音は、頭を回転させると、微妙ではあるが幾何学的に一貫 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation はコメントを受け付けていません

Development of a Voice Controlled Robotic Arm

要約 この論文では、人間の声で制御され、CUET メカトロニクス研究所で開発され … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | Development of a Voice Controlled Robotic Arm はコメントを受け付けていません

I Know Your Feelings Before You Do: Predicting Future Affective Reactions in Human-Computer Dialogue

要約 現在の音声対話システム (SDS) は、多くの場合、ユーザーの音声を受信し … 続きを読む

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | I Know Your Feelings Before You Do: Predicting Future Affective Reactions in Human-Computer Dialogue はコメントを受け付けていません

Comparative layer-wise analysis of self-supervised speech models

要約 事前トレーニングの目的、入力モダリティ、および事前トレーニング データが異 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Comparative layer-wise analysis of self-supervised speech models はコメントを受け付けていません

BECTRA: Transducer-based End-to-End ASR with BERT-Enhanced Encoder

要約 BERT-CTC-Transducer (BECTRA) は、BERT で … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | BECTRA: Transducer-based End-to-End ASR with BERT-Enhanced Encoder はコメントを受け付けていません

InterMPL: Momentum Pseudo-Labeling with Intermediate CTC Loss

要約 この論文では、InterMPL を紹介します。これは、中間教師による疑似ラ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | InterMPL: Momentum Pseudo-Labeling with Intermediate CTC Loss はコメントを受け付けていません

E2E Spoken Entity Extraction for Virtual Agents

要約 このホワイト ペーパーでは、音声エンコーダを使用した音声処理のいくつかの側 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | E2E Spoken Entity Extraction for Virtual Agents はコメントを受け付けていません