「cs.SD」カテゴリーアーカイブ

Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles

投稿日: 2023年10月18日作成者: jarxiv

要約音声ベースのインターフェイスは、ウェイクアップワードメカニズムに依存し … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism

投稿日: 2023年10月18日作成者: jarxiv

要約一般的な耐ノイズ性および耐残響性定位アルゴリズムは、主に、スピーカーのアイ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism

投稿日: 2023年10月17日作成者: jarxiv

要約一般的な耐ノイズ性および耐残響性定位アルゴリズムは、主に、話者のアイデンテ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis

投稿日: 2023年10月17日作成者: jarxiv

要約視聴覚シーンを記録する機械は、新しい位置や新しい視点で、現実的で一致する視 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | コメントを受け付けていません

Soundify: Matching Sound Effects to Video

投稿日: 2023年10月16日作成者: jarxiv

要約ビデオ編集の分野では、サウンドはオブジェクトに個性を加え、視聴者を空間に没 … 続きを読む →

カテゴリー: cs.CV, cs.HC, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Fast Word Error Rate Estimation Using Self-Supervised Representations For Speech And Text

投稿日: 2023年10月13日作成者: jarxiv

要約自動音声認識 (ASR) の品質は通常、単語誤り率 (WER) によって測 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Impact of time and note duration tokenizations on deep learning symbolic music modeling

投稿日: 2023年10月13日作成者: jarxiv

要約象徴的な音楽は、生成、転写、合成、音楽情報検索 (MIR) などのさまざま … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation

投稿日: 2023年10月13日作成者: jarxiv

要約オーディオ駆動トーキングヘッド合成は、仮想人間関連アプリケーションの人気の … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | コメントを受け付けていません

Soundify: Matching Sound Effects to Video

投稿日: 2023年10月13日作成者: jarxiv

要約ビデオ編集の分野では、サウンドはオブジェクトに個性を加え、視聴者を空間に没 … 続きを読む →

カテゴリー: cs.CV, cs.HC, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers

投稿日: 2023年10月12日作成者: jarxiv

要約この研究では、音素ベースの神経トランスデューサーのシーケンス識別トレーニン … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles

LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism

LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis

Soundify: Matching Sound Effects to Video

Fast Word Error Rate Estimation Using Self-Supervised Representations For Speech And Text

Impact of time and note duration tokenizations on deep learning symbolic music modeling

Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation

Soundify: Matching Sound Effects to Video

Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers

最近の投稿

最近のコメント

アーカイブ

カテゴリー