-
最近の投稿
- LiTransProQA: an LLM-based Literary Translation evaluation metric with Professional Question Answering
- Threshold Modulation for Online Test-Time Adaptation of Spiking Neural Networks
- G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness
- Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents
- EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation
-
最近のコメント
表示できるコメントはありません。 cs.AI (37830) cs.CL (28594) cs.CV (43451) cs.HC (2892) cs.LG (42758) cs.RO (22471) cs.SY (3449) eess.IV (5040) eess.SY (3441) stat.ML (5580)
「cs.MM」カテゴリーアーカイブ
FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing
要約 ムービーダビングは、与えられた短い参照音声のボーカルの音色を維持しながら、 … 続きを読む
ClassWise-CRF: Category-Specific Fusion for Enhanced Semantic Segmentation of Remote Sensing Imagery
要約 ClassWise-CRFと呼ばれる結果レベルのカテゴリ固有の融合アーキテ … 続きを読む
Addressing Emotion Bias in Music Emotion Recognition and Generation with Frechet Audio Distance
要約 音楽感情の複雑な性質は、特に単一のオーディオエンコーダー、感情分類器、また … 続きを読む
Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling
要約 ラベル付けされたデータの欠如は、音声分類タスク、特に認知状態分類などの広範 … 続きを読む
Revise, Reason, and Recognize: LLM-Based Emotion Recognition via Emotion-Specific Prompts and ASR Error Correction
要約 迅速なエンジニアリングを使用して音声感情を注釈と認識して、最近、大規模な言 … 続きを読む
Exploring Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations
要約 音楽と音楽からの感情の認識は、音響の重複のために類似点を共有しており、これ … 続きを読む
Solving Copyright Infringement on Short Video Platforms: Novel Datasets and an Audio Restoration Deep Learning Pipeline
要約 YouTube ShortsやTiktokのような短いビデオプラットフォー … 続きを読む
AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation
要約 この論文では、複数の入力モダリティ(テキスト、ビデオ、および参照オーディオ … 続きを読む
TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks
要約 AI生成された合成メディアは、実際のシナリオでますます使用されており、多く … 続きを読む