「cs.SD」カテゴリーアーカイブ

Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads

投稿日: 2024年2月22日作成者: jarxiv

要約自己教師あり学習 (SSL) は、ラベルのない音声の大規模なデータセットを … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges

投稿日: 2024年2月22日作成者: jarxiv

要約 Shazam のような先駆者に代表されるオーディオフィンガープリンティン … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

A multimodal dynamical variational autoencoder for audiovisual speech representation learning

投稿日: 2024年2月21日作成者: jarxiv

要約この論文では、教師なし視聴覚音声表現学習に適用されるマルチモーダルで動的 … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Unsupervised ASR via Cross-Lingual Pseudo-Labeling

投稿日: 2024年2月19日作成者: jarxiv

要約最近の研究では、ペアになっていない音声とテキストのみを使用して $\tex … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

DeepSRGM — Sequence Classification and Ranking in Indian Classical Music with Deep Learning

投稿日: 2024年2月16日作成者: jarxiv

要約インド古典音楽 (ICM) の重要な側面はラーガであり、作曲と即興演奏のメ … 続きを読む →

カテゴリー: cs.AI, cs.IR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio

投稿日: 2024年2月15日作成者: jarxiv

要約我々は、プロトタイプ学習に基づいた音楽オーディオ分類の解釈可能なモデル P … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models

投稿日: 2024年2月13日作成者: jarxiv

要約急速に進化する医療文書の状況では、臨床対話を正確に書き写すことがますます重 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-TDNN for Speaker Verification

投稿日: 2024年2月13日作成者: jarxiv

要約従来の時間遅延ニューラルネットワーク (TDNN) は、計算の複雑さと推 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension

投稿日: 2024年2月13日作成者: jarxiv

要約最近、指示に従う音声言語モデルが、人間と音声のインタラクションとして広く注 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Developing a Multi-variate Prediction Model For COVID-19 From Crowd-sourced Respiratory Voice Data

投稿日: 2024年2月13日作成者: jarxiv

要約新型コロナウイルス感染症は世界 223 か国以上に影響を及ぼしており、ポス … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads

Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges

A multimodal dynamical variational autoencoder for audiovisual speech representation learning

Unsupervised ASR via Cross-Lingual Pseudo-Labeling

DeepSRGM — Sequence Classification and Ranking in Indian Classical Music with Deep Learning

Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio

The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models

LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-TDNN for Speaker Verification

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension

Developing a Multi-variate Prediction Model For COVID-19 From Crowd-sourced Respiratory Voice Data

最近の投稿

最近のコメント

アーカイブ

カテゴリー