cs.CV」カテゴリーアーカイブ

FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback

要約 科学的な視覚化と文書を理解するには、キャプションが重要です。 科学者向けの … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback はコメントを受け付けていません

Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models

要約 画像の地理ローカリゼーションの以前の方法は、通常、タスクを分類または検索の … 続きを読む

カテゴリー: cs.CV | Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models はコメントを受け付けていません

ProbRadarM3F: mmWave Radar based Human Skeletal Pose Estimation with Probability Map Guided Multi-Format Feature Fusion

要約 ミリ波(mmwave)レーダーは、非侵入的なプライバシーであり、比較的便利 … 続きを読む

カテゴリー: cs.CV | ProbRadarM3F: mmWave Radar based Human Skeletal Pose Estimation with Probability Map Guided Multi-Format Feature Fusion はコメントを受け付けていません

FocalClick-XL: Towards Unified and High-quality Interactive Segmentation

要約 インタラクティブセグメンテーションにより、ユーザーは、クリック、落書き、ボ … 続きを読む

カテゴリー: cs.CV | FocalClick-XL: Towards Unified and High-quality Interactive Segmentation はコメントを受け付けていません

Language and Planning in Robotic Navigation: A Multilingual Evaluation of State-of-the-Art Models

要約 GPT-4などの大規模な言語モデル(LLM)は、複数のドメインにまたがる膨 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Language and Planning in Robotic Navigation: A Multilingual Evaluation of State-of-the-Art Models はコメントを受け付けていません

YOLOv11-RGBT: Towards a Comprehensive Single-Stage Multispectral Object Detection Framework

要約 複数のバンドからの情報を統合するマルチスペクトルオブジェクトの検出は、検出 … 続きを読む

カテゴリー: cs.CV | YOLOv11-RGBT: Towards a Comprehensive Single-Stage Multispectral Object Detection Framework はコメントを受け付けていません

Towards Desiderata-Driven Design of Visual Counterfactual Explainers

要約 視覚反事実的説明者(VCE)は、画像分類子の透明性を高めるための簡単で有望 … 続きを読む

カテゴリー: cs.CV, cs.LG | Towards Desiderata-Driven Design of Visual Counterfactual Explainers はコメントを受け付けていません

Iterative Camera-LiDAR Extrinsic Optimization via Surrogate Diffusion

要約 カメラとライダーは、自動運転車に不可欠なセンサーです。 カメラとライダーデ … 続きを読む

カテゴリー: cs.CV | Iterative Camera-LiDAR Extrinsic Optimization via Surrogate Diffusion はコメントを受け付けていません

DiFuse-Net: RGB and Dual-Pixel Depth Estimation using Window Bi-directional Parallax Attention and Cross-modal Transfer Learning

要約 深さの推定は、インテリジェントなシステムにとって重要であり、自律的なナビゲ … 続きを読む

カテゴリー: cs.CV, cs.RO | DiFuse-Net: RGB and Dual-Pixel Depth Estimation using Window Bi-directional Parallax Attention and Cross-modal Transfer Learning はコメントを受け付けていません

Plug-and-Play with 2.5D Artifact Reduction Prior for Fast and Accurate Industrial Computed Tomography Reconstruction

要約 コーンビームX線コンピューター断層撮影(XCT)は、医療から産業イメージン … 続きを読む

カテゴリー: cs.CV, eess.IV | Plug-and-Play with 2.5D Artifact Reduction Prior for Fast and Accurate Industrial Computed Tomography Reconstruction はコメントを受け付けていません