cs.SD」カテゴリーアーカイブ

WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models

要約 検索拡張生成(RAG)は、大規模な言語モデル(LLM)に外部知識を統合でき … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives

要約 視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊 … 続きを読む

カテゴリー: cs.CV, cs.SD | コメントする

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | コメントする

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

要約 テキストからソングの世代、テキスト入力からボーカルと伴奏を作成するタスクは … 続きを読む

カテゴリー: cs.AI, cs.SD | コメントする

SpeechT: Findings of the First Mentorship in Speech Translation

要約 この作品は、2024年12月と2025年1月に開催されたスピーチ翻訳の最初 … 続きを読む

カテゴリー: cs.CL, cs.SD | コメントする

Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning

要約 最近、マスクされた潜在的な予測に基づく自己教師の学習方法は、入力データを強 … 続きを読む

カテゴリー: cs.AI, cs.SD | コメントする

DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors

要約 大規模な潜在的拡散モデル(LDMS)は、さまざまなモダリティのコンテンツ生 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントする

ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition

要約 コード認識は、音楽分析におけるコードの抽象的で記述的な性質のため、音楽情報 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG, cs.SD | コメントする

Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives

要約 視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊 … 続きを読む

カテゴリー: cs.CV, cs.SD | コメントする

NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing

要約 視覚音声認識(VSR)の最近の進歩は、唇からスピーチの合成の進歩を促進しま … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | コメントする