cs.MM」カテゴリーアーカイブ

Land-cover change detection using paired OpenStreetMap data and optical high-resolution imagery via object-guided Transformer

要約 光学的高解像度画像と OpenStreetMap (OSM) データは、土 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY, cs.MM | Land-cover change detection using paired OpenStreetMap data and optical high-resolution imagery via object-guided Transformer はコメントを受け付けていません

Neural-Base Music Generation for Intelligence Duplication

要約 機械学習と人工知能には、(1) 情報の解釈、および (2) 新しい有用な情 … 続きを読む

カテゴリー: cs.AI, cs.MM | Neural-Base Music Generation for Intelligence Duplication はコメントを受け付けていません

Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval

要約 クロスモーダル検索モデルは、三重損失最適化の可能性を活用して、堅牢な埋め込 … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS | Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval はコメントを受け付けていません

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter

要約 言語モデル (LM) は、さまざまな 1D テキスト関連タスクにおいて優れ … 続きを読む

カテゴリー: cs.CL, cs.MM | MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter はコメントを受け付けていません

Generating Robust Adversarial Examples against Online Social Networks (OSNs)

要約 オンライン ソーシャル ネットワーク (OSN) は、現代の画像の一般的な … 続きを読む

カテゴリー: cs.CV, cs.MM | Generating Robust Adversarial Examples against Online Social Networks (OSNs) はコメントを受け付けていません

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models

要約 AI を活用した音楽処理は、生成タスク (音色合成など) から理解タスク … 続きを読む

カテゴリー: cs.CL, cs.MM, eess.AS | MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models はコメントを受け付けていません

VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias

要約 マルチメディア コンテンツがソーシャル メディア プラットフォーム上で遍在 … 続きを読む

カテゴリー: cs.CV, cs.MM | VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias はコメントを受け付けていません

Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning for Versatile Multimodal Modeling

要約 大規模言語モデル (LLM) とビジョン言語モデル (VLM) は、パラメ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning for Versatile Multimodal Modeling はコメントを受け付けていません

Learning Comprehensive Representations with Richer Self for Text-to-Image Person Re-Identification

要約 テキストから画像への人物再識別 (TIReID) は、クエリ テキストに基 … 続きを読む

カテゴリー: cs.CV, cs.MM | Learning Comprehensive Representations with Richer Self for Text-to-Image Person Re-Identification はコメントを受け付けていません

An empirical study of automatic wildlife detection using drone thermal imaging and object detection

要約 人工知能は、野生動物データの収集と解釈のための費用対効果の高い方法を通じて … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO | An empirical study of automatic wildlife detection using drone thermal imaging and object detection はコメントを受け付けていません