cs.CV」カテゴリーアーカイブ

Real-Time Video Generation with Pyramid Attention Broadcast

要約 私たちは、DiT ベースのビデオ生成のためのリアルタイム、高品質、トレーニ … 続きを読む

カテゴリー: cs.CV, cs.DC | Real-Time Video Generation with Pyramid Attention Broadcast はコメントを受け付けていません

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

要約 テキストの説明からリアルなシーンを生成できるテキストからビデオ (T2V) … 続きを読む

カテゴリー: cs.AI, cs.CV | xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations はコメントを受け付けていません

Automating Deformable Gasket Assembly

要約 ガスケットの組み立てでは、変形可能なガスケットを狭いチャネルに位置合わせし … 続きを読む

カテゴリー: cs.CV, cs.RO | Automating Deformable Gasket Assembly はコメントを受け付けていません

ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction

要約 ボリューム レンダリングによるニューラル 暗黙的再構成は、密な 3D サー … 続きを読む

カテゴリー: cs.AI, cs.CV | ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction はコメントを受け付けていません

DreamCinema: Cinematic Transfer with Free Camera and 3D Character

要約 私たちはデジタル メディアの隆盛の時代に生きており、誰もが個人の映画製作者 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | DreamCinema: Cinematic Transfer with Free Camera and 3D Character はコメントを受け付けていません

A New Chinese Landscape Paintings Generation Model based on Stable Diffusion using DreamBooth

要約 この研究では主に、中国の山水画を生成するための安定拡散モデル (SDM) … 続きを読む

カテゴリー: cs.CV | A New Chinese Landscape Paintings Generation Model based on Stable Diffusion using DreamBooth はコメントを受け付けていません

Exploring Robustness of Visual State Space model against Backdoor Attacks

要約 Visual State Space Model (VSS) は、さまざま … 続きを読む

カテゴリー: cs.CV | Exploring Robustness of Visual State Space model against Backdoor Attacks はコメントを受け付けていません

Target-Oriented Object Grasping via Multimodal Human Guidance

要約 人間とロボットの対話やコラボレーションのシナリオにおいて、ロボットによる把 … 続きを読む

カテゴリー: cs.CV, cs.RO | Target-Oriented Object Grasping via Multimodal Human Guidance はコメントを受け付けていません

S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection

要約 最近、トランスフォーマベースの方法は、単一の 2D 画像から 3D 属性を … 続きを読む

カテゴリー: cs.CV, cs.RO, eess.IV | S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection はコメントを受け付けていません

Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis

要約 従来のジオメトリベースの SLAM システムは、通常、データの関連付けが特 … 続きを読む

カテゴリー: cs.CV, cs.RO | Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis はコメントを受け付けていません