eess.AS」カテゴリーアーカイブ

From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition

要約 自動音声認識(ASR)の最近の進歩は、大規模な音声コーパスによって大きく促 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

Slamming: Training a Speech Language Model on One GPU in a Day

要約 24時間で単一のアカデミックGPUで高品質の音声言語モデル(SLM)をトレ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントする

Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation

要約 アクティブなサウンド変更のための新しいパラダイムを紹介します:アクティブな … 続きを読む

カテゴリー: cs.AI, eess.AS | コメントする

‘Alexa, can you forget me?’ Machine Unlearning Benchmark in Spoken Language Understanding

要約 機械学習モデルから特定の情報を効率的に削除するプロセスであるマシンの未学習 … 続きを読む

カテゴリー: cs.CL, eess.AS | コメントする

Granary: Speech Recognition and Translation Dataset in 25 European Languages

要約 マルチタスクと多言語のアプローチは大規模なモデルに利益をもたらしますが、低 … 続きを読む

カテゴリー: cs.CL, eess.AS | コメントする

Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach

要約 サブグループの格差とパフォーマンスバイアスは計算研究でますます研究されてい … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling

要約 強い一貫性を持つ大規模な感情的な音声データを取得することは、音声統合の課題 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

ToxicTone: A Mandarin Audio Dataset Annotated for Toxicity and Toxic Utterance Tonality

要約 テキストでの有毒な音声検出に関する広範な研究にもかかわらず、音声のマンダリ … 続きを読む

カテゴリー: cs.CL, eess.AS | コメントする

LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec

要約 個別の音声トークンは、言語モデルベースの音声生成に強い可能性を示しています … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

dMel: Speech Tokenization made Simple

要約 大規模な言語モデルは、膨大なテキストデータに自己監視された事前供与を活用す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントする