月別アーカイブ: 2024年4月

6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction

投稿日: 2024年4月19日作成者: jarxiv

要約現在の 3D 再構成技術では、少数の画像から境界のないシーンを忠実に推測す … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Lazy Diffusion Transformer for Interactive Image Editing

投稿日: 2024年4月19日作成者: jarxiv

要約部分的な画像更新を効率的に生成する新しい拡散変換器 LazyDiffusi … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis

投稿日: 2024年4月19日作成者: jarxiv

要約我々は、手とオブジェクトのインタラクションのためのノイズ除去拡散ベースの事 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MeshLRM: Large Reconstruction Model for High-Quality Mesh

投稿日: 2024年4月19日作成者: jarxiv

要約我々は、わずか 4 つの入力画像から 1 秒未満で高品質のメッシュを再構築 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

SOHES: Self-supervised Open-world Hierarchical Entity Segmentation

投稿日: 2024年4月19日作成者: jarxiv

要約オープンワールドエンティティセグメンテーションは、新たなコンピューター … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

投稿日: 2024年4月19日作成者: jarxiv

要約 Reka によってゼロからトレーニングされた一連の強力なマルチモーダル言語 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Moving Object Segmentation: All You Need Is SAM (and Flow)

投稿日: 2024年4月19日作成者: jarxiv

要約この論文の目的は、モーションセグメンテーション、つまりビデオ内の動くオブ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VideoGigaGAN: Towards Detail-rich Video Super-Resolution

投稿日: 2024年4月19日作成者: jarxiv

要約ビデオ超解像度 (VSR) アプローチは、アップサンプリングされたビデオで … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

BLINK: Multimodal Large Language Models Can See but Not Perceive

投稿日: 2024年4月19日作成者: jarxiv

要約他の評価では見られない中核的な視覚認識能力に焦点を当てた、マルチモーダル言 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

投稿日: 2024年4月19日作成者: jarxiv

要約ニューラルフィールドは、セマンティクス、幾何学、ダイナミクスの推論など、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2024年4月

6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction

Lazy Diffusion Transformer for Interactive Image Editing

G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis

MeshLRM: Large Reconstruction Model for High-Quality Mesh

SOHES: Self-supervised Open-world Hierarchical Entity Segmentation

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

Moving Object Segmentation: All You Need Is SAM (and Flow)

VideoGigaGAN: Towards Detail-rich Video Super-Resolution

BLINK: Multimodal Large Language Models Can See but Not Perceive

NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

最近の投稿

最近のコメント

アーカイブ

カテゴリー