-
最近の投稿
- Quantifying the Noise of Structural Perturbations on Graph Adversarial Attacks
- DS_FusionNet: Dynamic Dual-Stream Fusion with Bidirectional Knowledge Distillation for Plant Disease Recognition
- Characterizing Trust and Resilience in Distributed Consensus for Cyberphysical Systems
- ROMAN: Open-Set Object Map Alignment for Robust View-Invariant Global Localization
- Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach
-
最近のコメント
表示できるコメントはありません。 cs.AI (37322) cs.CL (28240) cs.CV (43016) cs.HC (2853) cs.LG (42262) cs.RO (22134) cs.SY (3385) eess.IV (5002) eess.SY (3377) stat.ML (5523)
「cs.MM」カテゴリーアーカイブ
ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio
要約 西洋音楽の伝統において、和音は和声の主要な構成要素であり、音楽の基本的な側 … 続きを読む
GalleryGPT: Analyzing Paintings with Large Multimodal Models
要約 作品分析は、個人の美的感性を豊かにし、批評的思考能力を促進する、美術鑑賞の … 続きを読む
Learned Compression of Point Cloud Geometry and Attributes in a Single Model through Multimodal Rate-Control
要約 点群圧縮は、必要なストリーミングデータレートを大幅に削減するため、ボリュー … 続きを読む
Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio
要約 音楽生成における最近の進歩により、創造的な音楽プロセス、現在のビジネス モ … 続きを読む
KeyVideoLLM: Towards Large-scale Video Keyframe Selection
要約 最近、Web ビデオの台頭により、大規模なビデオ データセットの管理と理解 … 続きを読む
Can LLMs ‘Reason’ in Music? An Evaluation of LLMs’ Capability of Music Understanding and Generation
要約 言語に似た記号音楽は、個別の記号でエンコードできます。 最近の研究では、G … 続きを読む
Open-Vocabulary Audio-Visual Semantic Segmentation
要約 オーディオビジュアル セマンティック セグメンテーション (AVSS) は … 続きを読む
Learning Video Context as Interleaved Multimodal Sequences
要約 映画などのナラティブビデオは、その豊富なコンテキスト (キャラクター、会話 … 続きを読む
Versatile audio-visual learning for emotion recognition
要約 現在のオーディオビジュアル感情認識モデルのほとんどは、実際のアプリケーショ … 続きを読む
Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation
要約 Radiology Report Generation (RRG) は、生 … 続きを読む