How to Train an Accurate and Efficient Object Detection Model on Any Dataset

要約

急速に進化する業界では、微調整に必要な時間と計算コストのかかる実験を必要とせずに、モデルの高精度が求められています。
さらに、かつては特定のデータセット向けに慎重に最適化されたモデルとトレーニング パイプラインが、別のデータセットでのトレーニングにうまく一般化されることはめったにありません。
このため、ユース ケースごとにモデルを慎重に微調整することは非現実的です。
これを解決するために、Intel Geti プラットフォームのバックボーンも形成する代替アプローチを提案します。これは、オブジェクト検出トレーニング用のデータセットに依存しないテンプレートであり、慎重に選択され事前トレーニングされたモデルと、さらなるトレーニングのための堅牢なトレーニング パイプラインで構成されます。
当社のソリューションはすぐに使用でき、幅広いデータセットで強力なベースラインを提供します。
単独で使用することも、必要に応じて特定のユース ケースに合わせてさらに微調整するための出発点として使用することもできます。
データセットのコーパスで並列トレーニングを実行し、コーパス全体の平均結果に関してアーキテクチャとトレーニング トリックの選択を最適化することにより、データセットに依存しないテンプレートを取得しました。
パフォーマンスと精度のトレードオフを考慮して、多くのアーキテクチャを調べました。
その結果、OpenVINO ツールキットを使用して CPU にデプロイできる 3 つのファイナリスト、VFNet、ATSS、および SSD を提案します。
ソースコードは、OpenVINO Training Extensions (https://github.com/openvinotoolkit/training_extensions) の一部として入手できます。

要約(オリジナル)

The rapidly evolving industry demands high accuracy of the models without the need for time-consuming and computationally expensive experiments required for fine-tuning. Moreover, a model and training pipeline, which was once carefully optimized for a specific dataset, rarely generalizes well to training on a different dataset. This makes it unrealistic to have carefully fine-tuned models for each use case. To solve this, we propose an alternative approach that also forms a backbone of Intel Geti platform: a dataset-agnostic template for object detection trainings, consisting of carefully chosen and pre-trained models together with a robust training pipeline for further training. Our solution works out-of-the-box and provides a strong baseline on a wide range of datasets. It can be used on its own or as a starting point for further fine-tuning for specific use cases when needed. We obtained dataset-agnostic templates by performing parallel training on a corpus of datasets and optimizing the choice of architectures and training tricks with respect to the average results on the whole corpora. We examined a number of architectures, taking into account the performance-accuracy trade-off. Consequently, we propose 3 finalists, VFNet, ATSS, and SSD, that can be deployed on CPU using the OpenVINO toolkit. The source code is available as a part of the OpenVINO Training Extensions (https://github.com/openvinotoolkit/training_extensions}

arxiv情報

著者 Galina Zalesskaya,Bogna Bylicka,Eugene Liu
発行日 2022-11-30 17:09:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク