-
最近の投稿
- Learning Decentralized Swarms Using Rotation Equivariant Graph Neural Networks
- SET-PAiREd: Designing for Parental Involvement in Learning with an AI-Assisted Educational Robot
- UASTHN: Uncertainty-Aware Deep Homography Estimation for UAV Satellite-Thermal Geo-localization
- Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
- The Geometry of Optimal Gait Families for Steering Kinematic Locomoting Systems
-
最近のコメント
表示できるコメントはありません。 cs.AI (34242) cs.CL (25887) cs.CR (2632) cs.CV (40143) cs.LG (39245) cs.RO (19992) cs.SY (3038) eess.IV (4777) eess.SY (3032) stat.ML (5176)
「cs.MM」カテゴリーアーカイブ
Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs
要約 マルチモーダル大規模言語モデル(MLLM)は、様々な視覚言語理解・生成タス … 続きを読む
Toward Automatic Relevance Judgment using Vision–Language Models for Image–Text Retrieval Evaluation
要約 Vision–Language Models(VLM)は、様々 … 続きを読む
ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio
要約 西洋音楽の伝統において、和音は和声の主要な構成要素であり、音楽の基本的な側 … 続きを読む
GalleryGPT: Analyzing Paintings with Large Multimodal Models
要約 作品分析は、個人の美的感性を豊かにし、批評的思考能力を促進する、美術鑑賞の … 続きを読む
Learned Compression of Point Cloud Geometry and Attributes in a Single Model through Multimodal Rate-Control
要約 点群圧縮は、必要なストリーミングデータレートを大幅に削減するため、ボリュー … 続きを読む
Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio
要約 音楽生成における最近の進歩により、創造的な音楽プロセス、現在のビジネス モ … 続きを読む
KeyVideoLLM: Towards Large-scale Video Keyframe Selection
要約 最近、Web ビデオの台頭により、大規模なビデオ データセットの管理と理解 … 続きを読む
Can LLMs ‘Reason’ in Music? An Evaluation of LLMs’ Capability of Music Understanding and Generation
要約 言語に似た記号音楽は、個別の記号でエンコードできます。 最近の研究では、G … 続きを読む
Open-Vocabulary Audio-Visual Semantic Segmentation
要約 オーディオビジュアル セマンティック セグメンテーション (AVSS) は … 続きを読む
Learning Video Context as Interleaved Multimodal Sequences
要約 映画などのナラティブビデオは、その豊富なコンテキスト (キャラクター、会話 … 続きを読む