「cs.CV」カテゴリーアーカイブ

GeoCalib: Learning Single-image Calibration with Geometric Optimization

投稿日: 2024年9月11日作成者: jarxiv

要約単一の画像から視覚的な手がかりを利用して、焦点距離や重力方向などのカメラの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Question-Answering Dense Video Events

投稿日: 2024年9月11日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、単一イベントビデオの質 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Evaluating Multiview Object Consistency in Humans and Image Models

投稿日: 2024年9月11日作成者: jarxiv

要約 3D 形状推論タスクにおける人間の観察者と視覚モデルの間の整合性を直接評価 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Green Screen Augmentation Enables Scene Generalisation in Robotic Manipulation

投稿日: 2024年9月10日作成者: jarxiv

要約ビジョンベースの操作ポリシーを新しい環境に一般化することは、依然として困難 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Neural Surface Reconstruction and Rendering for LiDAR-Visual Systems

投稿日: 2024年9月10日作成者: jarxiv

要約この論文では、神経放射フィールド (NeRF) とニューラルディスタンス … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

From Words to Poses: Enhancing Novel Object Pose Estimation with Vision Language Models

投稿日: 2024年9月10日作成者: jarxiv

要約ロボットは、新しい状況に継続的に適応する必要がある現実世界のシナリオで対話 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

OAFuser: Towards Omni-Aperture Fusion for Light Field Semantic Segmentation

投稿日: 2024年9月10日作成者: jarxiv

要約ライトフィールドカメラは、複雑な角度および空間の詳細を捉えることができます … 続きを読む →

カテゴリー: cs.CV, cs.RO, eess.IV | コメントを受け付けていません

Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis

投稿日: 2024年9月10日作成者: jarxiv

要約テキストから画像へのモデルのカスタマイズは大幅に進歩しましたが、複数のパー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Seeing Through the Mask: Rethinking Adversarial Examples for CAPTCHAs

投稿日: 2024年9月10日作成者: jarxiv

要約最新の CAPTCHA は、コンピュータにとっては難しくても人間にとっては … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark

投稿日: 2024年9月10日作成者: jarxiv

要約大規模マルチモーダルモデル (LMM) の機能が進化し続けるにつれて、L … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

GeoCalib: Learning Single-image Calibration with Geometric Optimization

Question-Answering Dense Video Events

Evaluating Multiview Object Consistency in Humans and Image Models

Green Screen Augmentation Enables Scene Generalisation in Robotic Manipulation

Neural Surface Reconstruction and Rendering for LiDAR-Visual Systems

From Words to Poses: Enhancing Novel Object Pose Estimation with Vision Language Models

OAFuser: Towards Omni-Aperture Fusion for Light Field Semantic Segmentation

Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis

Seeing Through the Mask: Rethinking Adversarial Examples for CAPTCHAs

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark

最近の投稿

最近のコメント

アーカイブ

カテゴリー