cs.CV」カテゴリーアーカイブ

GeoCalib: Learning Single-image Calibration with Geometric Optimization

要約 単一の画像から視覚的な手がかりを利用して、焦点距離や重力方向などのカメラの … 続きを読む

カテゴリー: cs.CV | GeoCalib: Learning Single-image Calibration with Geometric Optimization はコメントを受け付けていません

Question-Answering Dense Video Events

要約 マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Question-Answering Dense Video Events はコメントを受け付けていません

Evaluating Multiview Object Consistency in Humans and Image Models

要約 3D 形状推論タスクにおける人間の観察者と視覚モデルの間の整合性を直接評価 … 続きを読む

カテゴリー: cs.CV | Evaluating Multiview Object Consistency in Humans and Image Models はコメントを受け付けていません

Green Screen Augmentation Enables Scene Generalisation in Robotic Manipulation

要約 ビジョンベースの操作ポリシーを新しい環境に一般化することは、依然として困難 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Green Screen Augmentation Enables Scene Generalisation in Robotic Manipulation はコメントを受け付けていません

Neural Surface Reconstruction and Rendering for LiDAR-Visual Systems

要約 この論文では、神経放射フィールド (NeRF) とニューラル ディスタンス … 続きを読む

カテゴリー: cs.CV, cs.RO | Neural Surface Reconstruction and Rendering for LiDAR-Visual Systems はコメントを受け付けていません

From Words to Poses: Enhancing Novel Object Pose Estimation with Vision Language Models

要約 ロボットは、新しい状況に継続的に適応する必要がある現実世界のシナリオで対話 … 続きを読む

カテゴリー: cs.CV, cs.RO | From Words to Poses: Enhancing Novel Object Pose Estimation with Vision Language Models はコメントを受け付けていません

OAFuser: Towards Omni-Aperture Fusion for Light Field Semantic Segmentation

要約 ライトフィールドカメラは、複雑な角度および空間の詳細を捉えることができます … 続きを読む

カテゴリー: cs.CV, cs.RO, eess.IV | OAFuser: Towards Omni-Aperture Fusion for Light Field Semantic Segmentation はコメントを受け付けていません

Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis

要約 テキストから画像へのモデルのカスタマイズは大幅に進歩しましたが、複数のパー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis はコメントを受け付けていません

Seeing Through the Mask: Rethinking Adversarial Examples for CAPTCHAs

要約 最新の CAPTCHA は、コンピュータにとっては難しくても人間にとっては … 続きを読む

カテゴリー: cs.AI, cs.CV | Seeing Through the Mask: Rethinking Adversarial Examples for CAPTCHAs はコメントを受け付けていません

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark

要約 大規模マルチモーダル モデル (LMM) の機能が進化し続けるにつれて、L … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark はコメントを受け付けていません