cs.CV」カテゴリーアーカイブ

PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model

要約 大規模なビジョン言語モデル(LVLMS)の既存の多言語ベンチマークは、言語 … 続きを読む

カテゴリー: cs.CL, cs.CV | PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model はコメントを受け付けていません

Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models

要約 大規模なビジョン言語モデル(LVLMS)の大幅な成功にもかかわらず、これら … 続きを読む

カテゴリー: cs.CL, cs.CV | Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models はコメントを受け付けていません

GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding

要約 最近、グラフィカルユーザーインターフェイス(GUI)を直接知覚し、対応する … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding はコメントを受け付けていません

Image Over Text: Transforming Formula Recognition Evaluation with Character Detection Matching

要約 フォーミュラ認識は、複雑な構造と数学的表現のさまざまな表記による重要な課題 … 続きを読む

カテゴリー: cs.CL, cs.CV | Image Over Text: Transforming Formula Recognition Evaluation with Character Detection Matching はコメントを受け付けていません

Believing is Seeing: Unobserved Object Detection using Generative Models

要約 画像には見えないが、カメラの近くにあるオブジェクトは検出できますか? この … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Believing is Seeing: Unobserved Object Detection using Generative Models はコメントを受け付けていません

Any6D: Model-free 6D Pose Estimation of Novel Objects

要約 6Dオブジェクトポーズ推定のモデルフリーフレームワークであるAny6Dを紹 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Any6D: Model-free 6D Pose Estimation of Novel Objects はコメントを受け付けていません

CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools

要約 手術ビデオのツール追跡は、スキル評価、安全ゾーンの推定、人間のコラボレーシ … 続きを読む

カテゴリー: cs.AI, cs.CV | CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools はコメントを受け付けていません

Understanding Model Calibration — A gentle introduction and visual exploration of calibration and the expected calibration error (ECE)

要約 信頼できると見なされるためには、各決定に対する信頼が真の結果を密接に反映す … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ME, stat.ML | Understanding Model Calibration — A gentle introduction and visual exploration of calibration and the expected calibration error (ECE) はコメントを受け付けていません

RankCLIP: Ranking-Consistent Language-Image Pretraining

要約 クリップなどの自己監視対照学習モデルは、多くの下流タスクでビジョン言語モデ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | RankCLIP: Ranking-Consistent Language-Image Pretraining はコメントを受け付けていません

EgoSurgery-HTS: A Dataset for Egocentric Hand-Tool Segmentation in Open Surgery Videos

要約 エゴセントリックのオープンスラージビデオは、手術室での外科的処置と人間の行 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | EgoSurgery-HTS: A Dataset for Egocentric Hand-Tool Segmentation in Open Surgery Videos はコメントを受け付けていません