「cs.CV」カテゴリーアーカイブ

E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding

投稿日: 2024年9月27日作成者: jarxiv

要約ビデオ大規模言語モデル (Video-LLM) の最近の進歩により、汎用ビ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EdgeRunner: Auto-regressive Auto-encoder for Artistic Mesh Generation

投稿日: 2024年9月27日作成者: jarxiv

要約現在の自己回帰メッシュ生成方法には、不完全さ、不十分な詳細、貧弱な一般化な … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography

投稿日: 2024年9月27日作成者: jarxiv

要約 Contrastive Language-Image Pre-traini … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

EvMAPPER: High Altitude Orthomapping with Event Cameras

投稿日: 2024年9月27日作成者: jarxiv

要約従来、無人航空機 (UAV) は、CMOS ベースのカメラを利用して下界の … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

投稿日: 2024年9月27日作成者: jarxiv

要約人間は、他の物体を観察するだけで、新しい物体を操作する方法を学ぶことができ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

投稿日: 2024年9月27日作成者: jarxiv

要約事前トレーニングされたテキストから画像への拡散モデルの視覚事前分布を活用す … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

投稿日: 2024年9月27日作成者: jarxiv

要約大規模マルチモーダルモデル (LMM) の最近の進歩により、2D 視覚理 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EgoLM: Multi-Modal Language Model of Egocentric Motions

投稿日: 2024年9月27日作成者: jarxiv

要約ウェアラブルデバイスの普及に伴い、コンテキストAIの開発には自己中心的な動 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner

投稿日: 2024年9月27日作成者: jarxiv

要約ビジュアル生成における拡散モデルの成功を基礎として、フローベースのモデルは … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LingoQA: Visual Question Answering for Autonomous Driving

投稿日: 2024年9月27日作成者: jarxiv

要約自動運転における視覚的な質問応答のための新しいデータセットおよびベンチマー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding

EdgeRunner: Auto-regressive Auto-encoder for Artistic Mesh Generation

Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography

EvMAPPER: High Altitude Orthomapping with Event Cameras

Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

EgoLM: Multi-Modal Language Model of Egocentric Motions

FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner

LingoQA: Visual Question Answering for Autonomous Driving

最近の投稿

最近のコメント

アーカイブ

カテゴリー