eess.AS」カテゴリーアーカイブ

AudioFool: Fast, Universal and synchronization-free Cross-Domain Attack on Speech Recognition

要約 自動音声認識システムは、デバイス上で実行されるコマンドを操作する敵対的な攻 … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.LG, eess.AS | AudioFool: Fast, Universal and synchronization-free Cross-Domain Attack on Speech Recognition はコメントを受け付けていません

Automatic Bat Call Classification using Transformer Networks

要約 コウモリのエコーロケーション鳴き声からコウモリの種を自動的に識別することは … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Automatic Bat Call Classification using Transformer Networks はコメントを受け付けていません

A Large-scale Dataset for Audio-Language Representation Learning

要約 AI コミュニティは、大規模なマルチモーダル データセットを活用した強力な … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | A Large-scale Dataset for Audio-Language Representation Learning はコメントを受け付けていません

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

要約 事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS | MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation はコメントを受け付けていません

Motif-Centric Representation Learning for Symbolic Music

要約 音楽モチーフは、作曲の概念的な構成要素として、音楽構造の分析と自動作曲にと … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Motif-Centric Representation Learning for Symbolic Music はコメントを受け付けていません

Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation

要約 拡散モデルは、大部分の Text-to-Audio (TTA) 生成方法を … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation はコメントを受け付けていません

Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation

要約 話者ダイアライゼーションは、音声処理研究コミュニティ内でかなりの注目を集め … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation はコメントを受け付けていません

Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition

要約 命令調整された大規模言語モデル (LLM) とエンドツーエンドの自動音声認 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition はコメントを受け付けていません

Multimodal Modeling For Spoken Language Identification

要約 音声言語識別とは、特定の発話内の音声言語を自動的に予測するタスクを指します … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Multimodal Modeling For Spoken Language Identification はコメントを受け付けていません

Controllable Speaking Styles Using a Large Language Model

要約 参照ベースの Text-to-Speech (TTS) モデルは、同じター … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Controllable Speaking Styles Using a Large Language Model はコメントを受け付けていません