「cs.CV」カテゴリーアーカイブ

Dynamic EventNeRF: Reconstructing General Dynamic Scenes from Multi-view Event Cameras

投稿日: 2024年12月10日作成者: jarxiv

要約動的シーンの体積再構成は、コンピュータビジョンにおける重要な問題です。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty

投稿日: 2024年12月10日作成者: jarxiv

要約生成 AI モデルに対するユーザープロンプトは、多くの場合、仕様が不十分 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Visual Lexicon: Rich Image Features in Language Space

投稿日: 2024年12月10日作成者: jarxiv

要約私たちは、自然言語で伝えるのが難しい複雑な視覚的詳細を保持しながら、豊富な … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Delve into Visual Contrastive Decoding for Hallucination Mitigation of Large Vision-Language Models

投稿日: 2024年12月10日作成者: jarxiv

要約大規模視覚言語モデル (LVLM) は、入力された視覚コンテンツと相関する … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving

投稿日: 2024年12月10日作成者: jarxiv

要約動的シーンのリアルタイム 4D 再構成は、自動運転の知覚にとって依然として … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Towards Foundation Models for 3D Vision: How Close Are We?

投稿日: 2024年12月10日作成者: jarxiv

要約 3D ビジョンの基礎モデルの構築は、未解決のままの複雑な課題です。その目 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Data Attribution for Text-to-Image Models by Unlearning Synthesized Images

投稿日: 2024年12月10日作成者: jarxiv

要約テキストから画像へのモデルのデータ帰属の目的は、新しい画像の生成に最も影響 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Diverse Score Distillation

投稿日: 2024年12月10日作成者: jarxiv

要約 2D 拡散モデルのスコア蒸留は、テキストベースの 3D 生成や単一ビューの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

投稿日: 2024年12月10日作成者: jarxiv

要約グローバル視覚地理位置情報は、画像が地球上のどこで撮影されたかを予測します … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

投稿日: 2024年12月10日作成者: jarxiv

要約ロボットの視覚運動ポリシー学習において、拡散ベースのモデルは、従来の自己回 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Dynamic EventNeRF: Reconstructing General Dynamic Scenes from Multi-view Event Cameras

Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty

Visual Lexicon: Rich Image Features in Language Space

Delve into Visual Contrastive Decoding for Hallucination Mitigation of Large Vision-Language Models

Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving

Towards Foundation Models for 3D Vision: How Close Are We?

Data Attribution for Text-to-Image Models by Unlearning Synthesized Images

Diverse Score Distillation

Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

最近の投稿

最近のコメント

アーカイブ

カテゴリー