「cs.SD」カテゴリーアーカイブ

Can Generative Large Language Models Perform ASR Error Correction?

投稿日: 2023年7月11日作成者: jarxiv

要約 ASR エラー修正は、音声認識システムの後処理の重要な部分として機能し続け … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

VampNet: Music Generation via Masked Acoustic Token Modeling

投稿日: 2023年7月11日作成者: jarxiv

要約音楽の合成、圧縮、修復、バリエーションに対するマスクされた音響トークンモ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos

投稿日: 2023年7月11日作成者: jarxiv

要約私たちは、自己中心的なビデオにおける空間的な視聴覚対応に基づいて表現を学習 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Roman Numeral Analysis with Graph Neural Networks: Onset-wise Predictions from Note-wise Features

投稿日: 2023年7月10日作成者: jarxiv

要約ローマ数字分析は、調性音楽のコードとその機能的コンテキストを特定する重要な … 続きを読む →

カテゴリー: cs.LG, cs.SD | コメントを受け付けていません

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

投稿日: 2023年7月10日作成者: jarxiv

要約 ESPnet-ST-v2 は、音声言語翻訳コミュニティの関心の拡大によって … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment

投稿日: 2023年7月10日作成者: jarxiv

要約構音障害は、人間の音声システムに障害を引き起こし、音声の質と明瞭度を低下さ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments

投稿日: 2023年7月10日作成者: jarxiv

要約実際のアプリケーションでは、特に増分生成が必要なストリーミングシナリオで … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

WACO: Word-Aligned Contrastive Learning for Speech Translation

投稿日: 2023年7月10日作成者: jarxiv

要約エンドツーエンド音声翻訳 (E2E ST) は、ソース音声をターゲットテ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

投稿日: 2023年7月10日作成者: jarxiv

要約 LyricWhiz は、ロックやメタルなどの難しいジャンルでも、さまざまな … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

The Relationship Between Speech Features Changes When You Get Depressed: Feature Correlations for Improving Speed and Performance of Depression Detection

投稿日: 2023年7月10日作成者: jarxiv

要約この研究は、うつ病によって音声から抽出された特徴間の相関が変化することを示 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Can Generative Large Language Models Perform ASR Error Correction?

VampNet: Music Generation via Masked Acoustic Token Modeling

Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos

Roman Numeral Analysis with Graph Neural Networks: Onset-wise Predictions from Note-wise Features

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment

Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments

WACO: Word-Aligned Contrastive Learning for Speech Translation

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

The Relationship Between Speech Features Changes When You Get Depressed: Feature Correlations for Improving Speed and Performance of Depression Detection

最近の投稿

最近のコメント

アーカイブ

カテゴリー