Mcity Data Engine: Iterative Model Improvement Through Open-Vocabulary Data Selection

要約

データが増え続ける可能性があるため、機械学習モデルのトレーニングに適したサンプルを選択およびラベルを付けることがますます困難になっています。
大量のラベルのないデータに対する関心の長い尾クラスを検出することは特に困難です。
これは、車両の艦隊と道端の知覚システムが豊富な生データを生成するインテリジェント輸送システム(ITS)に特に当てはまります。
このような反復データ選択とモデルトレーニングプロセスのための産業、独自のデータエンジンは存在しますが、研究者とオープンソースコミュニティは、公然と利用可能なシステムの欠如に苦しんでいます。
データ収集フェーズから始まり、モデルの展開段階で終了する完全なデータベースの開発サイクルのモジュールを提供するMCITYデータエンジンを提示します。
MCITYデータエンジンは、オープンボキャブラリーデータ選択プロセスを通じて、まれで新しいクラスに焦点を当てています。
すべてのコードは、MITライセンスの下でGitHubで公開されています:https://github.com/mcity/mcity_data_engine

要約(オリジナル)

With an ever-increasing availability of data, it has become more and more challenging to select and label appropriate samples for the training of machine learning models. It is especially difficult to detect long-tail classes of interest in large amounts of unlabeled data. This holds especially true for Intelligent Transportation Systems (ITS), where vehicle fleets and roadside perception systems generate an abundance of raw data. While industrial, proprietary data engines for such iterative data selection and model training processes exist, researchers and the open-source community suffer from a lack of an openly available system. We present the Mcity Data Engine, which provides modules for the complete data-based development cycle, beginning at the data acquisition phase and ending at the model deployment stage. The Mcity Data Engine focuses on rare and novel classes through an open-vocabulary data selection process. All code is publicly available on GitHub under an MIT license: https://github.com/mcity/mcity_data_engine

arxiv情報

著者 Daniel Bogdoll,Rajanikant Patnaik Ananta,Abeyankar Giridharan,Isabel Moore,Gregory Stevens,Henry X. Liu
発行日 2025-04-30 13:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク