cs.SD」カテゴリーアーカイブ

TrOMR:Transformer-Based Polyphonic Optical Music Recognition

要約 光学式音楽認識 (OMR) は音楽における重要な技術であり、長い間研究され … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | TrOMR:Transformer-Based Polyphonic Optical Music Recognition はコメントを受け付けていません

Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model

要約 自然言語処理の研究では、トレーニングされた自己回帰言語モデルからの生成の品 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model はコメントを受け付けていません

Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning

要約 私たちは、650 時間以上の 19 チャンネル オーディオ、一次アンビソニ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning はコメントを受け付けていません

Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions

要約 私たちは、オーディオビジュアル アクション イベントの大規模なデータセット … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions はコメントを受け付けていません

Accurate synthesis of Dysarthric Speech for ASR data augmentation

要約 構音障害は、発語筋の制御が遅く、協調性を欠いていることによる音声明瞭度の低 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Accurate synthesis of Dysarthric Speech for ASR data augmentation はコメントを受け付けていません

End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations

要約 従来のキーワード検索システムは自動音声認識 (ASR) 出力で動作するため … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations はコメントを受け付けていません

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

要約 私たちは、最近提案されたウェブスケールの音声モデル Whisper の新た … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization はコメントを受け付けていません

Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals

要約 ミリ波 (mmWave) ベースの音声認識により、会議音声の書き起こしや盗 … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals はコメントを受け付けていません

SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability

要約 ホットワードのカスタマイズは、ASR 分野に残された重要な問題の 1 つで … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability はコメントを受け付けていません

ChinaTelecom System Description to VoxCeleb Speaker Recognition Challenge 2023

要約 この技術レポートでは、VoxCeleb2023 Speaker Recog … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ChinaTelecom System Description to VoxCeleb Speaker Recognition Challenge 2023 はコメントを受け付けていません