「cs.SD」カテゴリーアーカイブ

Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription

投稿日: 2024年2月13日作成者: jarxiv

要約最先端のエンドツーエンドの光学式音楽認識 (OMR) は、これまで主にモノ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification

投稿日: 2024年2月12日作成者: jarxiv

要約ラベルのないデータに対して自己教師あり目標を使用して大規模な基礎モデルをト … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Self-consistent context aware conformer transducer for speech recognition

投稿日: 2024年2月12日作成者: jarxiv

要約我々は、ASR システムにコンテキスト情報フローを追加する配座異性体トラン … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Establishing degrees of closeness between audio recordings along different dimensions using large-scale cross-lingual models

投稿日: 2024年2月9日作成者: jarxiv

要約リソースが少ない言語研究という非常に制約されたコンテキストにおいて、事前学 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Unified Speech-Text Pretraining for Spoken Dialog Modeling

投稿日: 2024年2月9日作成者: jarxiv

要約最近の研究では、音声を直接理解して合成するための大規模言語モデル (LLM … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

SpiRit-LM: Interleaved Spoken and Written Language Model

投稿日: 2024年2月9日作成者: jarxiv

要約テキストと音声を自由に混合する基礎マルチモーダル言語モデルである SPIR … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

投稿日: 2024年2月8日作成者: jarxiv

要約自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

MusicRL: Aligning Music Generation to Human Preferences

投稿日: 2024年2月7日作成者: jarxiv

要約私たちは人間のフィードバックから微調整された初の音楽生成システム Musi … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR

投稿日: 2024年2月7日作成者: jarxiv

要約教師なし自動音声認識 (ASR) は、音声とテキストのペアのデータを監視せ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Multimodal Speech Enhancement Using Burst Propagation

投稿日: 2024年2月6日作成者: jarxiv

要約本論文では、前頭前皮質や他の脳領域の錐体細胞に関する最新の神経学的発見を考 … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription

Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification

Self-consistent context aware conformer transducer for speech recognition

Establishing degrees of closeness between audio recordings along different dimensions using large-scale cross-lingual models

Unified Speech-Text Pretraining for Spoken Dialog Modeling

SpiRit-LM: Interleaved Spoken and Written Language Model

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

MusicRL: Aligning Music Generation to Human Preferences

REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR

Multimodal Speech Enhancement Using Burst Propagation

最近の投稿

最近のコメント

アーカイブ

カテゴリー