-
最近の投稿
- Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles
- Reinforcement Learning-based Fault-Tolerant Control for Quadrotor with Online Transformer Adaptation
- Enhanced Importance Sampling through Latent Space Exploration in Normalizing Flows
- Enhancing Scene Coordinate Regression with Efficient Keypoint Detection and Sequential Information
- Constrained Factor Graph Optimization for Robust Networked Pedestrian Inertial Navigation
-
最近のコメント
表示できるコメントはありません。 cs.AI (38035) cs.CL (28747) cs.CV (43624) cs.HC (2908) cs.LG (42962) cs.RO (22623) cs.SY (3469) eess.IV (5057) eess.SY (3461) stat.ML (5597)
「cs.MM」カテゴリーアーカイブ
Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs
要約 マルチモーダル LLM は LLM の自然な進化であり、純粋なテキスト モ … 続きを読む
Seeing Text in the Dark: Algorithm and Benchmark
要約 視覚的に劣化するため、暗い環境でテキストをローカライズするのは困難です。 … 続きを読む
Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding
要約 Large Vision-Language Model (LVLM) は物 … 続きを読む
Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation
要約 最近の研究では、人間の嗜好データセットを活用してテキストから画像への生成モ … 続きを読む
SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation
要約 単眼の 3D 人間の形状と姿勢を推定するための既存の Transforme … 続きを読む
TAVGBench: Benchmarking Text to Audible-Video Generation
要約 Text to Audible-Video Generation (TAV … 続きを読む
MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model
要約 LiDAR ベースの移動物体セグメンテーション (MOS) は、以前のスキ … 続きを読む
Leveraging Automatic Personalised Nutrition: Food Image Recognition Benchmark and Dataset based on Nutrition Taxonomy
要約 不適切な食生活が特徴的な今日の座りっぱなしの社会では、健康的なライフスタイ … 続きを読む
Training-and-prompt-free General Painterly Harmonization Using Image-wise Attention Sharing
要約 絵画的なイメージの調和は、単一の一貫したイメージ内で異種の視覚要素をシーム … 続きを読む