「cs.SD」カテゴリーアーカイブ

MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI

投稿日: 2025年1月20日作成者: jarxiv

要約以前のリアルタイム MRI (rtMRI) ベースの音声合成モデルは、ノイ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR

投稿日: 2025年1月20日作成者: jarxiv

要約自動音声認識 (ASR) システムは、構音障害のある音声に対してはパフォー … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words

投稿日: 2025年1月17日作成者: jarxiv

要約音声には、内容、パラ言語、環境情報などを含むがこれらに限定されない豊富な情 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

AudioBERT: Audio Knowledge Augmented Language Model

投稿日: 2025年1月17日作成者: jarxiv

要約最近の研究では、テキストのみのデータセットで事前トレーニングされた言語モデ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Sines, Transient, Noise Neural Modeling of Piano Notes

投稿日: 2025年1月17日作成者: jarxiv

要約この論文では、ピアノサウンドをエミュレートする新しい方法を紹介します。正 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models

投稿日: 2025年1月17日作成者: jarxiv

要約この論文では、選択的状態空間モデルを備えたディープニューラルネットワー … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation

投稿日: 2025年1月17日作成者: jarxiv

要約この論文では、コンピュータービジョンの Frechet Inceptio … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

投稿日: 2025年1月17日作成者: jarxiv

要約最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning

投稿日: 2025年1月17日作成者: jarxiv

要約メトリクス学習はサンプルを埋め込み空間に投影し、そこで学習された表現に基づ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Salmon: A Suite for Acoustic Language Model Evaluation

投稿日: 2025年1月16日作成者: jarxiv

要約音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI

Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR

SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words

AudioBERT: Audio Knowledge Augmented Language Model

Sines, Transient, Noise Neural Modeling of Piano Notes

Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models

Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning

Salmon: A Suite for Acoustic Language Model Evaluation

最近の投稿

最近のコメント

アーカイブ

カテゴリー