cs.CV」カテゴリーアーカイブ

Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages

要約 An old-school recipe for training a c … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages はコメントを受け付けていません

TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing

要約 Treemeshgptを紹介します。Treemeshgptは、入力ポイント … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing はコメントを受け付けていません

Seeing and Seeing Through the Glass: Real and Synthetic Data for Multi-Layer Depth Estimation

要約 透明なオブジェクトは日常生活で一般的であり、透明な表面とその背後にあるオブ … 続きを読む

カテゴリー: cs.CV | Seeing and Seeing Through the Glass: Real and Synthetic Data for Multi-Layer Depth Estimation はコメントを受け付けていません

Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration

要約 シーケンスの長さに関するマルチモーダル大手言語モデル(MLLM)の2次複雑 … 続きを読む

カテゴリー: cs.CV | Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration はコメントを受け付けていません

ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

要約 カメラ制御は、テキストまたは画像条件付けられたビデオ生成タスクで積極的に研 … 続きを読む

カテゴリー: cs.CV | ReCamMaster: Camera-Controlled Generative Rendering from A Single Video はコメントを受け付けていません

Centaur: Robust End-to-End Autonomous Driving with Test-Time Training

要約 展開中にエンドツーエンドの自動運転車の複雑な意思決定システムにどのように依 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Centaur: Robust End-to-End Autonomous Driving with Test-Time Training はコメントを受け付けていません

VGGT: Visual Geometry Grounded Transformer

要約 VGGTは、カメラパラメーター、ポイントマップ、深度マップ、3Dポイントト … 続きを読む

カテゴリー: cs.CV | VGGT: Visual Geometry Grounded Transformer はコメントを受け付けていません

Bring Your Rear Cameras for Egocentric 3D Human Pose Estimation

要約 エゴセントリック3Dヒトポーズ推定は、ヘッドマウントデバイス(HMD)の前 … 続きを読む

カテゴリー: cs.CV | Bring Your Rear Cameras for Egocentric 3D Human Pose Estimation はコメントを受け付けていません

Distilling Diversity and Control in Diffusion Models

要約 蒸留拡散モデルは、重大な制限に悩まされています。サンプルの多様性の低下と比 … 続きを読む

カテゴリー: cs.CV, cs.GR | Distilling Diversity and Control in Diffusion Models はコメントを受け付けていません

PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm

要約 Video Virtual Try-Onは、視覚的な忠実度と時間的一貫性の … 続きを読む

カテゴリー: cs.AI, cs.CV | PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm はコメントを受け付けていません