cs.CV」カテゴリーアーカイブ

Dynamic EventNeRF: Reconstructing General Dynamic Scenes from Multi-view Event Cameras

要約 動的シーンの体積再構成は、コンピュータ ビジョンにおける重要な問題です。 … 続きを読む

カテゴリー: cs.CV | Dynamic EventNeRF: Reconstructing General Dynamic Scenes from Multi-view Event Cameras はコメントを受け付けていません

Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty

要約 生成 AI モデルに対するユーザー プロンプトは、多くの場合、仕様が不十分 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty はコメントを受け付けていません

Visual Lexicon: Rich Image Features in Language Space

要約 私たちは、自然言語で伝えるのが難しい複雑な視覚的詳細を保持しながら、豊富な … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Visual Lexicon: Rich Image Features in Language Space はコメントを受け付けていません

Delve into Visual Contrastive Decoding for Hallucination Mitigation of Large Vision-Language Models

要約 大規模視覚言語モデル (LVLM) は、入力された視覚コンテンツと相関する … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Delve into Visual Contrastive Decoding for Hallucination Mitigation of Large Vision-Language Models はコメントを受け付けていません

Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving

要約 動的シーンのリアルタイム 4D 再構成は、自動運転の知覚にとって依然として … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving はコメントを受け付けていません

Towards Foundation Models for 3D Vision: How Close Are We?

要約 3D ビジョンの基礎モデルの構築は、未解決のままの複雑な課題です。 その目 … 続きを読む

カテゴリー: cs.CV | Towards Foundation Models for 3D Vision: How Close Are We? はコメントを受け付けていません

Data Attribution for Text-to-Image Models by Unlearning Synthesized Images

要約 テキストから画像へのモデルのデータ帰属の目的は、新しい画像の生成に最も影響 … 続きを読む

カテゴリー: cs.CV, cs.LG | Data Attribution for Text-to-Image Models by Unlearning Synthesized Images はコメントを受け付けていません

Diverse Score Distillation

要約 2D 拡散モデルのスコア蒸留は、テキストベースの 3D 生成や単一ビューの … 続きを読む

カテゴリー: cs.CV | Diverse Score Distillation はコメントを受け付けていません

Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

要約 グローバル視覚地理位置情報は、画像が地球上のどこで撮影されたかを予測します … 続きを読む

カテゴリー: cs.CV, cs.LG | Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation はコメントを受け付けていません

CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

要約 ロボットの視覚運動ポリシー学習において、拡散ベースのモデルは、従来の自己回 … 続きを読む

カテゴリー: cs.CV, cs.RO | CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction はコメントを受け付けていません