「eess.AS」カテゴリーアーカイブ

Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition

投稿日: 2023年9月21日作成者: jarxiv

要約方言に対する効果的な自動音声認識 (ASR) ソリューションを作成するには … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Incremental Blockwise Beam Search for Simultaneous Speech Translation with Controllable Quality-Latency Tradeoff

投稿日: 2023年9月21日作成者: jarxiv

要約ブロック単位のセルフアテンションエンコーダモデルは、同時音声翻訳に対す … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Long-Form End-to-End Speech Translation via Latent Alignment Segmentation

投稿日: 2023年9月21日作成者: jarxiv

要約現在の同時音声翻訳モデルは、最大数秒の音声しか処理できません。現代のデー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

AudioFool: Fast, Universal and synchronization-free Cross-Domain Attack on Speech Recognition

投稿日: 2023年9月21日作成者: jarxiv

要約自動音声認識システムは、デバイス上で実行されるコマンドを操作する敵対的な攻 … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.LG, eess.AS | コメントを受け付けていません

Automatic Bat Call Classification using Transformer Networks

投稿日: 2023年9月21日作成者: jarxiv

要約コウモリのエコーロケーション鳴き声からコウモリの種を自動的に識別することは … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

A Large-scale Dataset for Audio-Language Representation Learning

投稿日: 2023年9月21日作成者: jarxiv

要約 AI コミュニティは、大規模なマルチモーダルデータセットを活用した強力な … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

投稿日: 2023年9月21日作成者: jarxiv

要約事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Motif-Centric Representation Learning for Symbolic Music

投稿日: 2023年9月20日作成者: jarxiv

要約音楽モチーフは、作曲の概念的な構成要素として、音楽構造の分析と自動作曲にと … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation

投稿日: 2023年9月20日作成者: jarxiv

要約拡散モデルは、大部分の Text-to-Audio (TTA) 生成方法を … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation

投稿日: 2023年9月20日作成者: jarxiv

要約話者ダイアライゼーションは、音声処理研究コミュニティ内でかなりの注目を集め … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition

Incremental Blockwise Beam Search for Simultaneous Speech Translation with Controllable Quality-Latency Tradeoff

Long-Form End-to-End Speech Translation via Latent Alignment Segmentation

AudioFool: Fast, Universal and synchronization-free Cross-Domain Attack on Speech Recognition

Automatic Bat Call Classification using Transformer Networks

A Large-scale Dataset for Audio-Language Representation Learning

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

Motif-Centric Representation Learning for Symbolic Music

Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation

Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation

最近の投稿

最近のコメント

アーカイブ

カテゴリー