cs.SD」カテゴリーアーカイブ

Can Generative Large Language Models Perform ASR Error Correction?

要約 ASR エラー修正は、音声認識システムの後処理の重要な部分として機能し続け … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Can Generative Large Language Models Perform ASR Error Correction? はコメントを受け付けていません

VampNet: Music Generation via Masked Acoustic Token Modeling

要約 音楽の合成、圧縮、修復、バリエーションに対するマスクされた音響トークン モ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | VampNet: Music Generation via Masked Acoustic Token Modeling はコメントを受け付けていません

Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos

要約 私たちは、自己中心的なビデオにおける空間的な視聴覚対応に基づいて表現を学習 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos はコメントを受け付けていません

Roman Numeral Analysis with Graph Neural Networks: Onset-wise Predictions from Note-wise Features

要約 ローマ数字分析は、調性音楽のコードとその機能的コンテキストを特定する重要な … 続きを読む

カテゴリー: cs.LG, cs.SD | Roman Numeral Analysis with Graph Neural Networks: Onset-wise Predictions from Note-wise Features はコメントを受け付けていません

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

要約 ESPnet-ST-v2 は、音声言語翻訳コミュニティの関心の拡大によって … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit はコメントを受け付けていません

Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment

要約 構音障害は、人間の音声システムに障害を引き起こし、音声の質と明瞭度を低下さ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment はコメントを受け付けていません

Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments

要約 実際のアプリケーションでは、特に増分生成が必要なストリーミング シナリオで … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments はコメントを受け付けていません

WACO: Word-Aligned Contrastive Learning for Speech Translation

要約 エンドツーエンド音声翻訳 (E2E ST) は、ソース音声をターゲット テ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | WACO: Word-Aligned Contrastive Learning for Speech Translation はコメントを受け付けていません

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

要約 LyricWhiz は、ロックやメタルなどの難しいジャンルでも、さまざまな … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT はコメントを受け付けていません

The Relationship Between Speech Features Changes When You Get Depressed: Feature Correlations for Improving Speed and Performance of Depression Detection

要約 この研究は、うつ病によって音声から抽出された特徴間の相関が変化することを示 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | The Relationship Between Speech Features Changes When You Get Depressed: Feature Correlations for Improving Speed and Performance of Depression Detection はコメントを受け付けていません