「cs.CV」カテゴリーアーカイブ

Reconstructing Hand-Held Objects in 3D from Images and Videos

投稿日: 2024年11月26日作成者: jarxiv

要約手で操作されるオブジェクト (マニピュランダ) は、インターネットビデオ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Quark: Real-time, High-resolution, and General Neural View Synthesis

投稿日: 2024年11月26日作成者: jarxiv

要約我々は、高品質、高解像度、リアルタイムの新規ビュー合成を実行するための新し … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG | コメントを受け付けていません

Factorized Visual Tokenization and Generation

投稿日: 2024年11月26日作成者: jarxiv

要約ビジュアルトークナイザーは画像生成の基礎です。視覚データを個別のトークン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Generative Omnimatte: Learning to Decompose Video into Layers

投稿日: 2024年11月26日作成者: jarxiv

要約ビデオと一連の入力オブジェクトマスクが与えられると、オムニマット手法は、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OminiControl: Minimal and Universal Control for Diffusion Transformer

投稿日: 2024年11月26日作成者: jarxiv

要約このペーパーでは、画像条件を事前トレーニング済みの拡散変換 (DiT) モ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving

投稿日: 2024年11月25日作成者: jarxiv

要約この論文では、自動運転におけるビジョン中心のアルゴリズム用に設計された新し … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior

投稿日: 2024年11月25日作成者: jarxiv

要約自動運転システムの最近の進歩は、アノテーションとメンテナンスに莫大なコスト … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

A Benchmark Dataset for Collaborative SLAM in Service Environments

投稿日: 2024年11月25日作成者: jarxiv

要約サービス環境の多様化に伴い、1台のロボットでは難しい複雑な作業が求められる … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

FastGrasp: Efficient Grasp Synthesis with Diffusion

投稿日: 2024年11月25日作成者: jarxiv

要約人間の手と物体の相互作用を効果的にモデル化することは、複雑な物理的制約とア … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Unsupervised Multi-view UAV Image Geo-localization via Iterative Rendering

投稿日: 2024年11月25日作成者: jarxiv

要約無人航空機 (UAV) のクロスビュー地理位置特定 (CVGL) には、斜 … 続きを読む →

カテゴリー: cs.CV, cs.RO, eess.IV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Reconstructing Hand-Held Objects in 3D from Images and Videos

Quark: Real-time, High-resolution, and General Neural View Synthesis

Factorized Visual Tokenization and Generation

Generative Omnimatte: Learning to Decompose Video into Layers

OminiControl: Minimal and Universal Control for Diffusion Transformer

VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving

TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior

A Benchmark Dataset for Collaborative SLAM in Service Environments

FastGrasp: Efficient Grasp Synthesis with Diffusion

Unsupervised Multi-view UAV Image Geo-localization via Iterative Rendering

最近の投稿

最近のコメント

アーカイブ

カテゴリー