「eess.AS」カテゴリーアーカイブ

SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation

投稿日: 2023年7月13日作成者: jarxiv

要約ラベル付きの第 2 言語 (L2) 音声データの欠如は、発音間違い検出モデ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network

投稿日: 2023年7月13日作成者: jarxiv

要約コンテキスト情報は音声認識技術において重要な役割を果たしており、それをエン … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MARBLE: Music Audio Representation Benchmark for Universal Evaluation

投稿日: 2023年7月13日作成者: jarxiv

要約画像生成やフィクションの共同制作など、アートと人工知能 (AI) が広範に … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

VampNet: Music Generation via Masked Acoustic Token Modeling

投稿日: 2023年7月13日作成者: jarxiv

要約音楽の合成、圧縮、修復、バリエーションに対するマスクされた音響トークンモ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis

投稿日: 2023年7月12日作成者: jarxiv

要約ディープニューラルネットワークは本質的に不透明で、解釈が困難です。手 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Improving RNN-Transducers with Acoustic LookAhead

投稿日: 2023年7月12日作成者: jarxiv

要約 RNN トランスデューサ (RNN-T) は、その高精度とストリーミング機 … 続きを読む →

カテゴリー: cs.CL, cs.LG, eess.AS | コメントを受け付けていません

LegoNN: Building Modular Encoder-Decoder Models

投稿日: 2023年7月12日作成者: jarxiv

要約最先端のエンコーダ/デコーダモデル (例: 機械翻訳 (MT) や自動音 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

On the Effectiveness of Speech Self-supervised Learning for Music

投稿日: 2023年7月12日作成者: jarxiv

要約自己教師あり学習 (SSL) は、さまざまな音声および自然言語処理アプリケ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

ProgGP: From GuitarPro Tablature Neural Generation To Progressive Metal Production

投稿日: 2023年7月12日作成者: jarxiv

要約シンボリック音楽生成の分野における最近の研究では、入力および出力表現として … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

EchoVest: Real-Time Sound Classification and Depth Perception Expressed through Transcutaneous Electrical Nerve Stimulation

投稿日: 2023年7月11日作成者: jarxiv

要約世界中で 15 億人以上の人々が聴覚障害を抱えて暮らしています。このよう … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation

Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network

MARBLE: Music Audio Representation Benchmark for Universal Evaluation

VampNet: Music Generation via Masked Acoustic Token Modeling

What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis

Improving RNN-Transducers with Acoustic LookAhead

LegoNN: Building Modular Encoder-Decoder Models

On the Effectiveness of Speech Self-supervised Learning for Music

ProgGP: From GuitarPro Tablature Neural Generation To Progressive Metal Production

EchoVest: Real-Time Sound Classification and Depth Perception Expressed through Transcutaneous Electrical Nerve Stimulation

最近の投稿

最近のコメント

アーカイブ

カテゴリー