月別アーカイブ: 2024年4月

6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction

要約 現在の 3D 再構成技術では、少数の画像から境界のないシーンを忠実に推測す … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | 6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction はコメントを受け付けていません

Lazy Diffusion Transformer for Interactive Image Editing

要約 部分的な画像更新を効率的に生成する新しい拡散変換器 LazyDiffusi … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | Lazy Diffusion Transformer for Interactive Image Editing はコメントを受け付けていません

G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis

要約 我々は、手とオブジェクトのインタラクションのためのノイズ除去拡散ベースの事 … 続きを読む

カテゴリー: cs.CV | G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis はコメントを受け付けていません

MeshLRM: Large Reconstruction Model for High-Quality Mesh

要約 我々は、わずか 4 つの入力画像から 1 秒未満で高品質のメッシュを再構築 … 続きを読む

カテゴリー: cs.CV, cs.GR | MeshLRM: Large Reconstruction Model for High-Quality Mesh はコメントを受け付けていません

SOHES: Self-supervised Open-world Hierarchical Entity Segmentation

要約 オープンワールド エンティティ セグメンテーションは、新たなコンピューター … 続きを読む

カテゴリー: cs.CV, cs.LG | SOHES: Self-supervised Open-world Hierarchical Entity Segmentation はコメントを受け付けていません

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

要約 Reka によってゼロからトレーニングされた一連の強力なマルチモーダル言語 … 続きを読む

カテゴリー: cs.CL, cs.CV | Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models はコメントを受け付けていません

Moving Object Segmentation: All You Need Is SAM (and Flow)

要約 この論文の目的は、モーション セグメンテーション、つまりビデオ内の動くオブ … 続きを読む

カテゴリー: cs.CV | Moving Object Segmentation: All You Need Is SAM (and Flow) はコメントを受け付けていません

VideoGigaGAN: Towards Detail-rich Video Super-Resolution

要約 ビデオ超解像度 (VSR) アプローチは、アップサンプリングされたビデオで … 続きを読む

カテゴリー: cs.CV | VideoGigaGAN: Towards Detail-rich Video Super-Resolution はコメントを受け付けていません

BLINK: Multimodal Large Language Models Can See but Not Perceive

要約 他の評価では見られない中核的な視覚認識能力に焦点を当てた、マルチモーダル言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | BLINK: Multimodal Large Language Models Can See but Not Perceive はコメントを受け付けていません

NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

要約 ニューラル フィールドは、セマンティクス、幾何学、ダイナミクスの推論など、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields はコメントを受け付けていません