-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Precise Model Benchmarking with Only a Few Observations
要約 大規模な質問応答データセット内の特定のトピックに属する質問に対する大規模言 … 続きを読む
TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models
要約 視覚言語モデル (VLM) は、視覚タスクにおいて優れたパフォーマンスを示 … 続きを読む
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents
要約 マルチモーダル大規模言語モデル (MLLM) は、グラフィカル ユーザー … 続きを読む
mDPO: Conditional Preference Optimization for Multimodal Large Language Models
要約 直接設定最適化 (DPO) は、大規模言語モデル (LLM) の調整に効果 … 続きを読む
Grounding Partially-Defined Events in Multimodal Data
要約 ビデオの短い断片だけから、複雑な時事問題についてどのようにして知ることがで … 続きを読む
Lightning UQ Box: A Comprehensive Framework for Uncertainty Quantification in Deep Learning
要約 不確実性定量化 (UQ) は、DNN 出力にある程度の信頼性を与えるため、 … 続きを読む
MonoVisual3DFilter: 3D tomatoes’ localisation with monocular cameras using histogram filters
要約 果物のモニタリングや収穫など、農業における作業の実行には、対象物の空間的な … 続きを読む
CLIP-Clique: Graph-based Correspondence Matching Augmented by Vision Language Models for Object-based Global Localization
要約 本論文では、意味的オブジェクトランドマークを用いた地図上の大域的定位法を提 … 続きを読む
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy
要約 視覚入力を持つLLM、すなわち視覚言語モデル(VLM)は、状態情報を視覚的 … 続きを読む