PreciseCam: Precise Camera Control for Text-to-Image Generation

要約

芸術的な媒体としての画像は、アイデアや感情を伝えるために特定のカメラ アングルやレンズの歪みに依存することがよくあります。
ただし、現在のテキストから画像へのモデルにはそのような正確な制御がありません。
私たちは、写真画像と芸術画像の両方を生成する際にカメラを正確に制御できる、効率的かつ一般的なソリューションを提案します。
事前定義されたショットに依存する以前の方法とは異なり、4 つの単純な外部および内部カメラ パラメーターのみに依存し、既存のジオメトリ、参照 3D オブジェクト、およびマルチビュー データの必要性がなくなりました。
また、57,000 枚を超える画像を含む新しいデータセットと、それらのテキスト プロンプトおよびグラウンド トゥルース カメラ パラメーターも紹介します。
私たちの評価では、テキストから画像への生成における正確なカメラ制御が、従来のプロンプトエンジニアリングアプローチを超えていることがわかりました。
私たちのデータ、モデル、コードは https://graphics.unizar.es/projects/PreciseCam2024 で公開されています。

要約(オリジナル)

Images as an artistic medium often rely on specific camera angles and lens distortions to convey ideas or emotions; however, such precise control is missing in current text-to-image models. We propose an efficient and general solution that allows precise control over the camera when generating both photographic and artistic images. Unlike prior methods that rely on predefined shots, we rely solely on four simple extrinsic and intrinsic camera parameters, removing the need for pre-existing geometry, reference 3D objects, and multi-view data. We also present a novel dataset with more than 57,000 images, along with their text prompts and ground-truth camera parameters. Our evaluation shows precise camera control in text-to-image generation, surpassing traditional prompt engineering approaches. Our data, model, and code are publicly available at https://graphics.unizar.es/projects/PreciseCam2024.

arxiv情報

著者 Edurne Bernal-Berdun,Ana Serrano,Belen Masia,Matheus Gadelha,Yannick Hold-Geoffroy,Xin Sun,Diego Gutierrez
発行日 2025-01-22 14:37:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク