-
最近の投稿
- Learning to Drive Anywhere with Model-Based Reannotation11
- KineSoft: Learning Proprioceptive Manipulation Policies with Soft Robot Hands
- CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory
- Closing the Loop: Motion Prediction Models beyond Open-Loop Benchmarks
- Adaptive Stress Testing Black-Box LLM Planners
-
最近のコメント
表示できるコメントはありません。 cs.AI (37890) cs.CL (28643) cs.CV (43507) cs.HC (2900) cs.LG (42826) cs.RO (22521) cs.SY (3457) eess.IV (5045) eess.SY (3449) stat.ML (5583)
「68Q85」カテゴリーアーカイブ
MVTamperBench: Evaluating Robustness of Vision-Language Models
要約 マルチモーダル大規模言語モデル (MLLM) は、ビデオの理解において大き … 続きを読む
MVTamperBench: Evaluating Robustness of Vision-Language Models
要約 視覚言語モデル (VLM) の最近の進歩により、複雑なビデオ理解タスクが大 … 続きを読む
MVTamperBench: Evaluating Robustness of Vision-Language Models
要約 視覚言語モデル (VLM) の最近の進歩により、複雑なビデオ理解タスクが大 … 続きを読む
Benchmarking Edge Computing Devices for Grape Bunches and Trunks Detection using Accelerated Object Detection Single Shot MultiBox Deep Learning Models
要約 目的: 視覚により、ロボットは環境を認識できます。 視覚データは、コンピュ … 続きを読む