「cs.CV」カテゴリーアーカイブ

PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation

投稿日: 2024年12月20日作成者: jarxiv

要約 Large Vision-Language Model (LVLM) の大 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Scaling 4D Representations

投稿日: 2024年12月20日作成者: jarxiv

要約ビデオからの純粋な自己教師あり学習については、スケーリングが説得力を持って … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Generative Multiview Relighting for 3D Reconstruction under Extreme Illumination Variation

投稿日: 2024年12月20日作成者: jarxiv

要約異なる環境で撮影された写真から物体の幾何学形状や外観を再構成することは、照 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

投稿日: 2024年12月20日作成者: jarxiv

要約ドラッグベースのインタラクションの直観的な性質により、画像からビデオへの合 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Flowing from Words to Pixels: A Framework for Cross-Modality Evolution

投稿日: 2024年12月20日作成者: jarxiv

要約拡散モデルとその一般化であるフローマッチングは、メディア生成の分野に顕著 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EnvGS: Modeling View-Dependent Appearance with Environment Gaussian

投稿日: 2024年12月20日作成者: jarxiv

要約現実世界のシーンの複雑な反射を 2D 画像から再構築することは、フォトリア … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

投稿日: 2024年12月20日作成者: jarxiv

要約私たちは、トレーニング中にグラウンドトゥルース編集された画像の必要性を排除 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Black-Box Evaluation Framework for Semantic Robustness in Bird’s Eye View Detection

投稿日: 2024年12月20日作成者: jarxiv

要約カメラベースの鳥瞰図 (BEV) 認識モデルは、深層学習の堅牢性と信頼性に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GaraMoSt: Parallel Multi-Granularity Motion and Structural Modeling for Efficient Multi-Frame Interpolation in DSA Images

投稿日: 2024年12月20日作成者: jarxiv

要約デジタルサブトラクションアンギオグラフィー (DSA) 画像の迅速かつ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FashionComposer: Compositional Fashion Image Generation

投稿日: 2024年12月20日作成者: jarxiv

要約構成的なファッション画像を生成するための FashionComposer … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation

Scaling 4D Representations

Generative Multiview Relighting for 3D Reconstruction under Extreme Illumination Variation

LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

Flowing from Words to Pixels: A Framework for Cross-Modality Evolution

EnvGS: Modeling View-Dependent Appearance with Environment Gaussian

UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

A Black-Box Evaluation Framework for Semantic Robustness in Bird’s Eye View Detection

GaraMoSt: Parallel Multi-Granularity Motion and Structural Modeling for Efficient Multi-Frame Interpolation in DSA Images

FashionComposer: Compositional Fashion Image Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー