cs.MM」カテゴリーアーカイブ

PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval

要約 クロスモーダル検索の領域では、マルチメディア内の多様なモダリティをシームレ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG, cs.MM | PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval はコメントを受け付けていません

Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs

要約 マルチモーダル大規模言語モデル(MLLM)は、様々な視覚言語理解・生成タス … 続きを読む

カテゴリー: cs.CV, cs.MM | Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs はコメントを受け付けていません

Toward Automatic Relevance Judgment using Vision–Language Models for Image–Text Retrieval Evaluation

要約 Vision–Language Models(VLM)は、様々 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.IR, cs.MM | Toward Automatic Relevance Judgment using Vision–Language Models for Image–Text Retrieval Evaluation はコメントを受け付けていません

ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio

要約 西洋音楽の伝統において、和音は和声の主要な構成要素であり、音楽の基本的な側 … 続きを読む

カテゴリー: 68P20, cs.LG, cs.MM, cs.SD, eess.AS, I.2.6 | ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio はコメントを受け付けていません

GalleryGPT: Analyzing Paintings with Large Multimodal Models

要約 作品分析は、個人の美的感性を豊かにし、批評的思考能力を促進する、美術鑑賞の … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | GalleryGPT: Analyzing Paintings with Large Multimodal Models はコメントを受け付けていません

Learned Compression of Point Cloud Geometry and Attributes in a Single Model through Multimodal Rate-Control

要約 点群圧縮は、必要なストリーミングデータレートを大幅に削減するため、ボリュー … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Learned Compression of Point Cloud Geometry and Attributes in a Single Model through Multimodal Rate-Control はコメントを受け付けていません

Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio

要約 音楽生成における最近の進歩により、創造的な音楽プロセス、現在のビジネス モ … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio はコメントを受け付けていません

KeyVideoLLM: Towards Large-scale Video Keyframe Selection

要約 最近、Web ビデオの台頭により、大規模なビデオ データセットの管理と理解 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | KeyVideoLLM: Towards Large-scale Video Keyframe Selection はコメントを受け付けていません

Can LLMs ‘Reason’ in Music? An Evaluation of LLMs’ Capability of Music Understanding and Generation

要約 言語に似た記号音楽は、個別の記号でエンコードできます。 最近の研究では、G … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | Can LLMs ‘Reason’ in Music? An Evaluation of LLMs’ Capability of Music Understanding and Generation はコメントを受け付けていません

Open-Vocabulary Audio-Visual Semantic Segmentation

要約 オーディオビジュアル セマンティック セグメンテーション (AVSS) は … 続きを読む

カテゴリー: cs.AI, cs.MM | Open-Vocabulary Audio-Visual Semantic Segmentation はコメントを受け付けていません