MINERVAS: Massive INterior EnviRonments VirtuAl Synthesis

要約

データ駆動型技術の急速な発展に伴い、データはさまざまなコンピューター ビジョン タスクで重要な役割を果たしてきました。
さまざまな問題に対処するために、多くの現実的な合成データセットが提案されています。
ただし、多くの未解決の課題があります。(1) データセットの作成は、通常、手作業による注釈を伴う退屈なプロセスです。(2) ほとんどのデータセットは、1 つの特定のタスク用にのみ設計されています。(3) 3D シーンの変更またはランダム化です。
(4) 商用 3D データの公開には著作権の問題が発生する可能性があります。
このホワイト ペーパーでは、さまざまなビジョン タスクの 3D シーン変更と 2D 画像合成を容易にする大規模な室内環境仮想合成システムである MINERVAS について説明します。
具体的には、ドメイン固有言語を使用してプログラム可能なパイプラインを設計し、ユーザーが (1) 商用の屋内シーン データベースからシーンを選択し、(2) カスタマイズされたルールを使用してさまざまなタスクのシーンを合成し、(3) さまざまな画像データをレンダリングできるようにします。
視覚的な色、幾何学的構造、セマンティック ラベルなど。
私たちのシステムは、さまざまなタスクのために膨大な数のシーンをカスタマイズする難しさを緩和し、マルチレベル サンプラーを使用してユーザーが制御可能なランダム性を提供することで、ユーザーがきめの細かいシーン構成を操作する必要がなくなります。
最も重要なことは、ユーザーが数百万の屋内シーンを含む商用シーン データベースにアクセスできるようにし、3D CAD モデルなどのコア データ資産の著作権を保護することです。
合成データを使用してさまざまな種類のコンピューター ビジョン タスクのパフォーマンスを向上させることにより、システムの有効性と柔軟性を実証します。

要約(オリジナル)

With the rapid development of data-driven techniques, data has played an essential role in various computer vision tasks. Many realistic and synthetic datasets have been proposed to address different problems. However, there are lots of unresolved challenges: (1) the creation of dataset is usually a tedious process with manual annotations, (2) most datasets are only designed for a single specific task, (3) the modification or randomization of the 3D scene is difficult, and (4) the release of commercial 3D data may encounter copyright issue. This paper presents MINERVAS, a Massive INterior EnviRonments VirtuAl Synthesis system, to facilitate the 3D scene modification and the 2D image synthesis for various vision tasks. In particular, we design a programmable pipeline with Domain-Specific Language, allowing users to (1) select scenes from the commercial indoor scene database, (2) synthesize scenes for different tasks with customized rules, and (3) render various imagery data, such as visual color, geometric structures, semantic label. Our system eases the difficulty of customizing massive numbers of scenes for different tasks and relieves users from manipulating fine-grained scene configurations by providing user-controllable randomness using multi-level samplers. Most importantly, it empowers users to access commercial scene databases with millions of indoor scenes and protects the copyright of core data assets, e.g., 3D CAD models. We demonstrate the validity and flexibility of our system by using our synthesized data to improve the performance on different kinds of computer vision tasks.

arxiv情報

著者 Haocheng Ren,Hao Zhang,Jia Zheng,Jiaxiang Zheng,Rui Tang,Yuchi Huo,Hujun Bao,Rui Wang
発行日 2022-08-30 09:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク