-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.MM」カテゴリーアーカイブ
Land-cover change detection using paired OpenStreetMap data and optical high-resolution imagery via object-guided Transformer
要約 光学的高解像度画像と OpenStreetMap (OSM) データは、土 … 続きを読む
Neural-Base Music Generation for Intelligence Duplication
要約 機械学習と人工知能には、(1) 情報の解釈、および (2) 新しい有用な情 … 続きを読む
Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval
要約 クロスモーダル検索モデルは、三重損失最適化の可能性を活用して、堅牢な埋め込 … 続きを読む
MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter
要約 言語モデル (LM) は、さまざまな 1D テキスト関連タスクにおいて優れ … 続きを読む
Generating Robust Adversarial Examples against Online Social Networks (OSNs)
要約 オンライン ソーシャル ネットワーク (OSN) は、現代の画像の一般的な … 続きを読む
MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models
要約 AI を活用した音楽処理は、生成タスク (音色合成など) から理解タスク … 続きを読む
VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias
要約 マルチメディア コンテンツがソーシャル メディア プラットフォーム上で遍在 … 続きを読む
Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning for Versatile Multimodal Modeling
要約 大規模言語モデル (LLM) とビジョン言語モデル (VLM) は、パラメ … 続きを読む
Learning Comprehensive Representations with Richer Self for Text-to-Image Person Re-Identification
要約 テキストから画像への人物再識別 (TIReID) は、クエリ テキストに基 … 続きを読む
An empirical study of automatic wildlife detection using drone thermal imaging and object detection
要約 人工知能は、野生動物データの収集と解釈のための費用対効果の高い方法を通じて … 続きを読む