Language-guided Semantic Style Transfer of 3D Indoor Scenes


3D 屋内シーンの言語ガイド付きセマンティック スタイル転送の新しい問題に対処します。
入力は、3D 屋内シーン メッシュと、ターゲット シーンを説明するいくつかのフレーズです。
まず、多層パーセプトロンによって 3D 頂点座標が RGB 残基にマッピングされます。
次に、屋内シーン用に調整された視点サンプリング戦略を介して、色付きの 3D メッシュが 2D 画像に差別的にレンダリングされます。
第 3 に、レンダリングされた 2D 画像は、事前にトレーニングされた視覚言語モデルを介してフレーズと比較されます。
最後に、エラーが多層パーセプトロンに逆伝播され、特定のセマンティック カテゴリに対応する頂点の色が更新されます。
ScanNet と SceneNN のパブリック データセットを使用して、大規模な定性分析と A/B ユーザー テストを実施しました。
(1) マルチメディア アプリケーションに役立つ可能性がある視覚的に満足のいく結果。
(2) 人間の先見性と一致する視点から 3D 屋内シーンをレンダリングすることが重要です。
(3) セマンティクスを組み込むことで、スタイル転送の品質が大幅に向上します。
(4) HSV 正則化項は、入力との一貫性が高く、一般的に評価が高い結果をもたらします。
コードとユーザー調査ツールボックスは、 で入手できます。


We address the new problem of language-guided semantic style transfer of 3D indoor scenes. The input is a 3D indoor scene mesh and several phrases that describe the target scene. Firstly, 3D vertex coordinates are mapped to RGB residues by a multi-layer perceptron. Secondly, colored 3D meshes are differentiablly rendered into 2D images, via a viewpoint sampling strategy tailored for indoor scenes. Thirdly, rendered 2D images are compared to phrases, via pre-trained vision-language models. Lastly, errors are back-propagated to the multi-layer perceptron to update vertex colors corresponding to certain semantic categories. We did large-scale qualitative analyses and A/B user tests, with the public ScanNet and SceneNN datasets. We demonstrate: (1) visually pleasing results that are potentially useful for multimedia applications. (2) rendering 3D indoor scenes from viewpoints consistent with human priors is important. (3) incorporating semantics significantly improve style transfer quality. (4) an HSV regularization term leads to results that are more consistent with inputs and generally rated better. Codes and user study toolbox are available at


著者 Bu Jin,Beiwen Tian,Hao Zhao,Guyue Zhou
発行日 2022-08-16 17:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV パーマリンク