「cs.CV」カテゴリーアーカイブ

Four-Plane Factorized Video Autoencoders

投稿日: 2024年12月6日作成者: jarxiv

要約潜在変数生成モデルは、画像やビデオの合成などの生成タスクのための強力なツー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

投稿日: 2024年12月6日作成者: jarxiv

要約オープンセット障害の自動検出と防止は、閉ループロボットシステムにおいて非常 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

投稿日: 2024年12月6日作成者: jarxiv

要約この作品では、テキストから画像を生成するためのスケールワイズトランスフォ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

HeatFormer: A Neural Optimizer for Multiview Human Mesh Recovery

投稿日: 2024年12月6日作成者: jarxiv

要約複数の静的ビューを完全に活用できる、人間の形状と姿勢を復元するための新しい … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Monocular Dynamic Gaussian Splatting is Fast and Brittle but Smooth Motion Helps

投稿日: 2024年12月6日作成者: jarxiv

要約ガウススプラッティング法は、マルチビュー画像データをビュー合成を可能にす … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Cubify Anything: Scaling Indoor 3D Object Detection

投稿日: 2024年12月6日作成者: jarxiv

要約市販のハンドヘルドデバイスから取得した単一の RGB(-D) フレームに … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering

投稿日: 2024年12月6日作成者: jarxiv

要約私たちは、ニューラルネットワークや 3D ガウスを使用せずに、まばらなボ … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors

投稿日: 2024年12月6日作成者: jarxiv

要約大規模拡散モデルは、テキストの説明から高品質の画像を生成することに目覚まし … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion

投稿日: 2024年12月6日作成者: jarxiv

要約私たちは、時間軸と視点軸の両方を持つビデオフレームのグリッドとして編成さ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

投稿日: 2024年12月6日作成者: jarxiv

要約動的シーンのカジュアルな単眼ビデオからカメラパラメータと深度マップを正確、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Four-Plane Factorized Video Autoencoders

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

HeatFormer: A Neural Optimizer for Multiview Human Mesh Recovery

Monocular Dynamic Gaussian Splatting is Fast and Brittle but Smooth Motion Helps

Cubify Anything: Scaling Indoor 3D Object Detection

Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering

LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors

4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion

MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

最近の投稿

最近のコメント

アーカイブ

カテゴリー