要約
コンピューター ビジョンにおけるディープ ラーニングは、大規模なラベル付きトレーニング データを犠牲にして大きな成功を収めました。
ただし、人件費が高く、ラベル付けの精度が保証されていないため、対象となるすべてのドメインの各タスクに対して網羅的なデータの注釈を付けることは現実的ではありません。
さらに、制御不能なデータ収集プロセスにより、非 IID トレーニング データとテスト データが生成され、望ましくない重複が存在する可能性があります。
これらすべての迷惑行為は、典型的な理論の検証や新しい発見への暴露を妨げる可能性があります。
これらを回避する代替案は、ドメインのランダム化を使用した 3D レンダリングを介して合成データを生成することです。
私たちはこの研究で、裸の教師あり学習と下流のドメイン適応に関する深く広範な研究を行うことで、この方向に沿って前進します。
具体的には、3D レンダリングによって有効にされた、適切に制御された IID データ設定の下で、ショートカット学習などの典型的で重要な学習の洞察を体系的に検証し、一般化されたさまざまなデータ体制とネットワーク アーキテクチャの新しい法則を発見します。
さらに、オブジェクトのスケール、マテリアルのテクスチャ、照明、カメラの視点、3D シーンの背景などの一般化に対する画像形成要素の影響を調査します。
さらに、事前トレーニングに使用した場合の合成データと実際のデータの間の転送可能性を比較するための下流タスクとして、シミュレーションから現実への適応を使用します。これは、合成データの事前トレーニングが実際のテスト結果の改善にも期待できることを示しています。
最後に、将来の研究を促進するために、S2RDA と呼ばれる、画像分類のための新しい大規模な合成から現実へのベンチマークを開発します。これは、シミュレーションから現実への移行において、より重要な課題を提供します。
コードとデータセットは https://github.com/huitangtang/On_the_Utility_of_Synthetic_Data で入手できます。
要約(オリジナル)
Deep learning in computer vision has achieved great success with the price of large-scale labeled training data. However, exhaustive data annotation is impracticable for each task of all domains of interest, due to high labor costs and unguaranteed labeling accuracy. Besides, the uncontrollable data collection process produces non-IID training and test data, where undesired duplication may exist. All these nuisances may hinder the verification of typical theories and exposure to new findings. To circumvent them, an alternative is to generate synthetic data via 3D rendering with domain randomization. We in this work push forward along this line by doing profound and extensive research on bare supervised learning and downstream domain adaptation. Specifically, under the well-controlled, IID data setting enabled by 3D rendering, we systematically verify the typical, important learning insights, e.g., shortcut learning, and discover the new laws of various data regimes and network architectures in generalization. We further investigate the effect of image formation factors on generalization, e.g., object scale, material texture, illumination, camera viewpoint, and background in a 3D scene. Moreover, we use the simulation-to-reality adaptation as a downstream task for comparing the transferability between synthetic and real data when used for pre-training, which demonstrates that synthetic data pre-training is also promising to improve real test results. Lastly, to promote future research, we develop a new large-scale synthetic-to-real benchmark for image classification, termed S2RDA, which provides more significant challenges for transfer from simulation to reality. The code and datasets are available at https://github.com/huitangtang/On_the_Utility_of_Synthetic_Data.
arxiv情報
著者 | Hui Tang,Kui Jia |
発行日 | 2023-05-25 14:42:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google