BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation

要約

さまざまな条件下でのコンピューター ビジョン モデルの系統的な評価と理解には、包括的でカスタマイズされたラベルが付いた大量のデータが必要ですが、現実世界のビジョン データセットではほとんど満たされません。
現在の合成データ ジェネレーターは、特に具体化された AI タスクに対して有望な代替手段を提供しますが、資産とレンダリングの品質が低いこと、多様性が限られていること、非現実的な物理特性があるため、コンピューター ビジョン タスクには適していないことがよくあります。
BEHAVIOR Vision Suite (BVS) は、新しく開発されたエンボディド AI ベンチマークである BEHAVIOR-1K に基づいて、コンピューター ビジョン モデルの系統的な評価用に完全にカスタマイズされた合成データを生成するためのツールとアセットのセットです。
BVS は、シーン レベル (照明、オブジェクトの配置など)、オブジェクト レベル (関節構成、「塗りつぶし」や「折り畳まれた」などの属性)、およびカメラ レベル (フィールドなど) で多数の調整可能なパラメータをサポートしています。
視野、焦点距離)。
研究者は、データ生成中にこれらのパラメータを任意に変更して、制御された実験を実行できます。
3 つのアプリケーション シナリオ例を紹介します。ドメイン シフトの異なる連続軸にわたるモデルの堅牢性の体系的な評価、同じ画像セットでのシーン理解モデルの評価、新しい視覚タスク (単項および単項タスク) のシミュレーションから現実への変換のトレーニングと評価です。
バイナリ状態予測。
プロジェクト Web サイト: https://behavior-vision-suite.github.io/

要約(オリジナル)

The systematic evaluation and understanding of computer vision models under varying conditions require large amounts of data with comprehensive and customized labels, which real-world vision datasets rarely satisfy. While current synthetic data generators offer a promising alternative, particularly for embodied AI tasks, they often fall short for computer vision tasks due to low asset and rendering quality, limited diversity, and unrealistic physical properties. We introduce the BEHAVIOR Vision Suite (BVS), a set of tools and assets to generate fully customized synthetic data for systematic evaluation of computer vision models, based on the newly developed embodied AI benchmark, BEHAVIOR-1K. BVS supports a large number of adjustable parameters at the scene level (e.g., lighting, object placement), the object level (e.g., joint configuration, attributes such as ‘filled’ and ‘folded’), and the camera level (e.g., field of view, focal length). Researchers can arbitrarily vary these parameters during data generation to perform controlled experiments. We showcase three example application scenarios: systematically evaluating the robustness of models across different continuous axes of domain shift, evaluating scene understanding models on the same set of images, and training and evaluating simulation-to-real transfer for a novel vision task: unary and binary state prediction. Project website: https://behavior-vision-suite.github.io/

arxiv情報

著者 Yunhao Ge,Yihe Tang,Jiashu Xu,Cem Gokmen,Chengshu Li,Wensi Ai,Benjamin Jose Martinez,Arman Aydin,Mona Anvari,Ayush K Chakravarthy,Hong-Xing Yu,Josiah Wong,Sanjana Srivastava,Sharon Lee,Shengxin Zha,Laurent Itti,Yunzhu Li,Roberto Martín-Martín,Miao Liu,Pengchuan Zhang,Ruohan Zhang,Li Fei-Fei,Jiajun Wu
発行日 2024-05-15 17:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク