cs.SD」カテゴリーアーカイブ

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

要約 テキストからソングの世代、テキスト入力からボーカルと伴奏を作成するタスクは … 続きを読む

カテゴリー: cs.AI, cs.SD | SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation はコメントを受け付けていません

SpeechT: Findings of the First Mentorship in Speech Translation

要約 この作品は、2024年12月と2025年1月に開催されたスピーチ翻訳の最初 … 続きを読む

カテゴリー: cs.CL, cs.SD | SpeechT: Findings of the First Mentorship in Speech Translation はコメントを受け付けていません

Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning

要約 最近、マスクされた潜在的な予測に基づく自己教師の学習方法は、入力データを強 … 続きを読む

カテゴリー: cs.AI, cs.SD | Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning はコメントを受け付けていません

DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors

要約 大規模な潜在的拡散モデル(LDMS)は、さまざまなモダリティのコンテンツ生 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors はコメントを受け付けていません

ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition

要約 コード認識は、音楽分析におけるコードの抽象的で記述的な性質のため、音楽情報 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG, cs.SD | ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition はコメントを受け付けていません

Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives

要約 視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊 … 続きを読む

カテゴリー: cs.CV, cs.SD | Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives はコメントを受け付けていません

NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing

要約 視覚音声認識(VSR)の最近の進歩は、唇からスピーチの合成の進歩を促進しま … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing はコメントを受け付けていません

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

要約 いくつかの最近の研究では、拡散モデルと自己回帰モデルを組み合わせることによ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation はコメントを受け付けていません

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

要約 特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment はコメントを受け付けていません

mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition

要約 Audio-Visuual Speech Speech Septureat … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition はコメントを受け付けていません