cs.CV」カテゴリーアーカイブ

E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding

要約 ビデオ大規模言語モデル (Video-LLM) の最近の進歩により、汎用ビ … 続きを読む

カテゴリー: cs.CV | E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding はコメントを受け付けていません

EdgeRunner: Auto-regressive Auto-encoder for Artistic Mesh Generation

要約 現在の自己回帰メッシュ生成方法には、不完全さ、不十分な詳細、貧弱な一般化な … 続きを読む

カテゴリー: cs.CV | EdgeRunner: Auto-regressive Auto-encoder for Artistic Mesh Generation はコメントを受け付けていません

Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography

要約 Contrastive Language-Image Pre-traini … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography はコメントを受け付けていません

EvMAPPER: High Altitude Orthomapping with Event Cameras

要約 従来、無人航空機 (UAV) は、CMOS ベースのカメラを利用して下界の … 続きを読む

カテゴリー: cs.CV, cs.RO | EvMAPPER: High Altitude Orthomapping with Event Cameras はコメントを受け付けていません

Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

要約 人間は、他の物体を観察するだけで、新しい物体を操作する方法を学ぶことができ … 続きを読む

カテゴリー: cs.CV, cs.RO | Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction はコメントを受け付けていません

Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

要約 事前トレーニングされたテキストから画像への拡散モデルの視覚事前分布を活用す … 続きを読む

カテゴリー: cs.CV | Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction はコメントを受け付けていません

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

要約 大規模マルチモーダル モデル (LMM) の最近の進歩により、2D 視覚理 … 続きを読む

カテゴリー: cs.CV | LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness はコメントを受け付けていません

EgoLM: Multi-Modal Language Model of Egocentric Motions

要約 ウェアラブルデバイスの普及に伴い、コンテキストAIの開発には自己中心的な動 … 続きを読む

カテゴリー: cs.CV | EgoLM: Multi-Modal Language Model of Egocentric Motions はコメントを受け付けていません

FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner

要約 ビジュアル生成における拡散モデルの成功を基礎として、フローベースのモデルは … 続きを読む

カテゴリー: cs.CV | FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner はコメントを受け付けていません

LingoQA: Visual Question Answering for Autonomous Driving

要約 自動運転における視覚的な質問応答のための新しいデータセットおよびベンチマー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | LingoQA: Visual Question Answering for Autonomous Driving はコメントを受け付けていません