要約
データプーリングには、サンプルサイズの増加、一般化の改善、サンプリングバイアスの軽減、データの希薄性と品質への対処など、さまざまな利点がありますが、簡単ではなく、逆効果になる可能性さえあります。
個々のデータセットの全体的な情報内容を推定するのは難しいため、原則に基づいた方法でデータセットをプールする有効性を評価することは困難です。
この目的に向けて、データ ソース予測モジュールを標準の物体検出パイプラインに組み込むことを提案します。
このモジュールは推論時間中に最小限のオーバーヘッドで実行され、個々の検出に割り当てられたデータ ソースに関する追加情報を提供します。
車両データセットの異種プールからサンプルを自動的に選択することにより、いわゆるデータセット アフィニティ スコアの利点を示します。
この結果は、検出精度を損なうことなく、非常にまばらなトレーニング サンプルのセットで物体検出器をトレーニングできることを示しています。
要約(オリジナル)
Data pooling offers various advantages, such as increasing the sample size, improving generalization, reducing sampling bias, and addressing data sparsity and quality, but it is not straightforward and may even be counterproductive. Assessing the effectiveness of pooling datasets in a principled manner is challenging due to the difficulty in estimating the overall information content of individual datasets. Towards this end, we propose incorporating a data source prediction module into standard object detection pipelines. The module runs with minimal overhead during inference time, providing additional information about the data source assigned to individual detections. We show the benefits of the so-called dataset affinity score by automatically selecting samples from a heterogeneous pool of vehicle datasets. The results show that object detectors can be trained on a significantly sparser set of training samples without losing detection accuracy.
arxiv情報
著者 | Stefan Becker,Jens Bayer,Ronny Hug,Wolfgang Hübner,Michael Arens |
発行日 | 2023-11-16 10:45:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google