cs.SD」カテゴリーアーカイブ

Towards spoken dialect identification of Irish

要約 アイルランド語は、方言やアクセントの多様性に富んでいます。 これは、リソー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Towards spoken dialect identification of Irish はコメントを受け付けていません

Edit Distance based RL for RNNT decoding

要約 RNN-T は、さまざまなベンチマーク テストで優れた WER を示し、シ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Edit Distance based RL for RNNT decoding はコメントを受け付けていません

AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023

要約 このレポートでは、2023 Epic-Kitchen EPIC-SOUND … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023 はコメントを受け付けていません

Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study

要約 このペーパーでは、書き起こしの精度を向上させるために、大規模言語モデル ( … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

KIT’s Multilingual Speech Translation System for IWSLT 2023

要約 既存の音声翻訳ベンチマークの多くは、高品質の録音条件でのネイティブ英語の音 … 続きを読む

カテゴリー: cs.CL, cs.SD | KIT’s Multilingual Speech Translation System for IWSLT 2023 はコメントを受け付けていません

SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation

要約 ラベル付きの第 2 言語 (L2) 音声データの欠如は、発音間違い検出モデ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation はコメントを受け付けていません

Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network

要約 コンテキスト情報は音声認識技術において重要な役割を果たしており、それをエン … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network はコメントを受け付けていません

MARBLE: Music Audio Representation Benchmark for Universal Evaluation

要約 画像生成やフィクションの共同制作など、アートと人工知能 (AI) が広範に … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | MARBLE: Music Audio Representation Benchmark for Universal Evaluation はコメントを受け付けていません

VampNet: Music Generation via Masked Acoustic Token Modeling

要約 音楽の合成、圧縮、修復、バリエーションに対するマスクされた音響トークン モ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | VampNet: Music Generation via Masked Acoustic Token Modeling はコメントを受け付けていません