要約
我々は、複数のオブジェクトから構成される仮想シーンに対してリアルなテクスチャを自動的に作成する手法 Text2Scene を提案します。
私たちのパイプラインは、参照画像とテキストの説明に基づいて、室内のラベル付き 3D ジオメトリに詳細なテクスチャを追加し、生成された色が階層構造や類似したマテリアルで構成されることが多い意味論的な部分を尊重するようにします。
単一のステップでシーン全体にフラットなスタイル化を適用する代わりに、幾何学的セグメンテーションから弱い意味論的な手がかりを取得します。これは、セグメント化された部分に初期色を割り当てることによってさらに明確になります。
次に、個々のオブジェクトのテクスチャの詳細を追加して、画像空間上の投影が入力の埋め込みと一致する特徴の埋め込みを示すようにします。
分解により、パイプライン全体が適度な量の計算リソースとメモリに対応できるようになります。
私たちのフレームワークは画像とテキストの埋め込みの既存のリソースを利用するため、熟練したアーティストによってデザインされた高品質のテクスチャを備えた専用のデータセットを必要としません。
私たちの知る限り、これは、複数のオブジェクトを含むシーンの構造コンテキストを維持する、目的のスタイルの詳細でリアルなテクスチャを作成できる、初めての実用的でスケーラブルなアプローチです。
要約(オリジナル)
We propose Text2Scene, a method to automatically create realistic textures for virtual scenes composed of multiple objects. Guided by a reference image and text descriptions, our pipeline adds detailed texture on labeled 3D geometries in the room such that the generated colors respect the hierarchical structure or semantic parts that are often composed of similar materials. Instead of applying flat stylization on the entire scene at a single step, we obtain weak semantic cues from geometric segmentation, which are further clarified by assigning initial colors to segmented parts. Then we add texture details for individual objects such that their projections on image space exhibit feature embedding aligned with the embedding of the input. The decomposition makes the entire pipeline tractable to a moderate amount of computation resources and memory. As our framework utilizes the existing resources of image and text embedding, it does not require dedicated datasets with high-quality textures designed by skillful artists. To the best of our knowledge, it is the first practical and scalable approach that can create detailed and realistic textures of the desired style that maintain structural context for scenes with multiple objects.
arxiv情報
著者 | Inwoo Hwang,Hyeonwoo Kim,Young Min Kim |
発行日 | 2023-08-31 17:37:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google