-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model
要約 大規模なビジョン言語モデル(LVLMS)の既存の多言語ベンチマークは、言語 … 続きを読む
Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models
要約 大規模なビジョン言語モデル(LVLMS)の大幅な成功にもかかわらず、これら … 続きを読む
GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding
要約 最近、グラフィカルユーザーインターフェイス(GUI)を直接知覚し、対応する … 続きを読む
Image Over Text: Transforming Formula Recognition Evaluation with Character Detection Matching
要約 フォーミュラ認識は、複雑な構造と数学的表現のさまざまな表記による重要な課題 … 続きを読む
Believing is Seeing: Unobserved Object Detection using Generative Models
要約 画像には見えないが、カメラの近くにあるオブジェクトは検出できますか? この … 続きを読む
Any6D: Model-free 6D Pose Estimation of Novel Objects
要約 6Dオブジェクトポーズ推定のモデルフリーフレームワークであるAny6Dを紹 … 続きを読む
CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools
要約 手術ビデオのツール追跡は、スキル評価、安全ゾーンの推定、人間のコラボレーシ … 続きを読む
Understanding Model Calibration — A gentle introduction and visual exploration of calibration and the expected calibration error (ECE)
要約 信頼できると見なされるためには、各決定に対する信頼が真の結果を密接に反映す … 続きを読む
RankCLIP: Ranking-Consistent Language-Image Pretraining
要約 クリップなどの自己監視対照学習モデルは、多くの下流タスクでビジョン言語モデ … 続きを読む
EgoSurgery-HTS: A Dataset for Egocentric Hand-Tool Segmentation in Open Surgery Videos
要約 エゴセントリックのオープンスラージビデオは、手術室での外科的処置と人間の行 … 続きを読む