eess.AS」カテゴリーアーカイブ

Fast Word Error Rate Estimation Using Self-Supervised Representations For Speech And Text

要約 自動音声認識 (ASR) の品質は通常、単語誤り率 (WER) によって測 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Fast Word Error Rate Estimation Using Self-Supervised Representations For Speech And Text はコメントを受け付けていません

Impact of time and note duration tokenizations on deep learning symbolic music modeling

要約 象徴的な音楽は、生成、転写、合成、音楽情報検索 (MIR) などのさまざま … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Impact of time and note duration tokenizations on deep learning symbolic music modeling はコメントを受け付けていません

Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation

要約 オーディオ駆動トーキングヘッド合成は、仮想人間関連アプリケーションの人気の … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation はコメントを受け付けていません

Soundify: Matching Sound Effects to Video

要約 ビデオ編集の分野では、サウンドはオブジェクトに個性を加え、視聴者を空間に没 … 続きを読む

カテゴリー: cs.CV, cs.HC, cs.MM, cs.SD, eess.AS | Soundify: Matching Sound Effects to Video はコメントを受け付けていません

Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction

要約 人間は、一般的にカクテル パーティーのシナリオと呼ばれる、複雑な音響環境の … 続きを読む

カテゴリー: cs.CL, eess.AS | Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction はコメントを受け付けていません

Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction

要約 人間は、一般的にカクテル パーティーのシナリオと呼ばれる、複雑な音響環境の … 続きを読む

カテゴリー: cs.CL, eess.AS | Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction はコメントを受け付けていません

Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers

要約 この研究では、音素ベースの神経トランスデューサーのシーケンス識別トレーニン … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers はコメントを受け付けていません

DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation

要約 直接音声ツー音声翻訳 (S2ST) は、単一のモデルを使用して音声をある言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 | DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation はコメントを受け付けていません

Adapting the adapters for code-switching in multilingual ASR

要約 最近、事前トレーニングされた大規模な多言語音声モデルにより、自動音声認識 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Adapting the adapters for code-switching in multilingual ASR はコメントを受け付けていません

Audio-Visual Neural Syntax Acquisition

要約 私たちは視覚に基づいた音声から句構造を誘導する研究を行っています。 中心と … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Audio-Visual Neural Syntax Acquisition はコメントを受け付けていません