「cs.CV」カテゴリーアーカイブ

LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS

投稿日: 2024年11月13日作成者: jarxiv

要約ポイントベースの技術を使用したリアルタイムニューラルレンダリングの最近 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models

投稿日: 2024年11月13日作成者: jarxiv

要約物理的推論は、現実世界で動作するロボットエージェントに必要な重要なスキル … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

投稿日: 2024年11月13日作成者: jarxiv

要約 3D コンテンツの生成は大幅に進歩しましたが、既存の方法は入力形式、潜在空 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

Scaling Properties of Diffusion Models for Perceptual Tasks

投稿日: 2024年11月13日作成者: jarxiv

要約この論文では、拡散モデルを使用した反復計算が、生成タスクだけでなく視覚認識 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Material Transforms from Disentangled NeRF Representations

投稿日: 2024年11月13日作成者: jarxiv

要約この論文では、最初に、異なるシーン間でマテリアルの変換を転送するための新し … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

WavShadow: Wavelet Based Shadow Segmentation and Removal

投稿日: 2024年11月13日作成者: jarxiv

要約影の除去とセグメンテーションは、コンピュータビジョン、特に複雑な現実世界 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Extreme Rotation Estimation in the Wild

投稿日: 2024年11月13日作成者: jarxiv

要約我々は、画像の視野が限られている、または重複していない極端な設定で撮影され … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags

投稿日: 2024年11月13日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の一般的な視覚的命令追従能力 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

投稿日: 2024年11月13日作成者: jarxiv

要約テキストの指示に基づいて画像にオブジェクトを追加することは、セマンティック … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

Few-shot Semantic Learning for Robust Multi-Biome 3D Semantic Mapping in Off-Road Environments

投稿日: 2024年11月12日作成者: jarxiv

要約オフロード環境では、構造化されていない地形、センシング条件の悪化、バイオー … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS

LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models

GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

Scaling Properties of Diffusion Models for Perceptual Tasks

Material Transforms from Disentangled NeRF Representations

WavShadow: Wavelet Based Shadow Segmentation and Removal

Extreme Rotation Estimation in the Wild

Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags

Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

Few-shot Semantic Learning for Robust Multi-Biome 3D Semantic Mapping in Off-Road Environments

最近の投稿

最近のコメント

アーカイブ

カテゴリー