Development of Image Collection Method Using YOLO and Siamese Network

要約

ビッグデータの時代を迎える中、高品質なデータを収集することが非常に重要です。
しかし、人間によるデータ収集は非常に時間がかかるだけでなく、費用もかかります。
したがって、多くの科学者は、コンピューターを使用してデータを収集するさまざまな方法を考案しました。
その中にWebクローリングと呼ばれる手法がありますが、このクローリング手法にはユーザーとともに意図しないデータが収集されてしまうという問題があることが分かりました。
著者らは、オブジェクト認識モデル YOLOv10 を使用してこれをフィルタリングできることを発見しました。
ただし、適切にフィルタリングされていないデータが残る場合があります。
ここでは、Siamese ネットワークから出力される距離を追加利用して画像の再分類を実行し、他の分類モデルよりも高いパフォーマンスを記録しました。
(平均 \_f1 スコア YOLO+MobileNet 0.678->YOLO+SiameseNet 0.772)) ユーザーは距離のしきい値を指定して、データ欠損と耐ノイズ性のバランスを調整できます。
著者らはまた、Siamese ネットワークで画像を処理する際に、トリミングされた画像が物体認識に使用されるため、Siamese ネットワークはより少ないリソースでより高いパフォーマンスを達成できることも発見しました。
(クラス 20 平均ベースの f1 スコア、非クロップ+Siamese(MobileNetV3-Small) 80.94 -> クロップ前処理+Siamese(MobileNetV3-Small) 82.31) このようにして、2 つの連続するモデルを利用してエラーを減らす画像検索システムは、
ユーザーの時間と労力を節約し、以前よりも少ないリソースでより迅速に高品質のデータを構築します。

要約(オリジナル)

As we enter the era of big data, collecting high-quality data is very important. However, collecting data by humans is not only very time-consuming but also expensive. Therefore, many scientists have devised various methods to collect data using computers. Among them, there is a method called web crawling, but the authors found that the crawling method has a problem in that unintended data is collected along with the user. The authors found that this can be filtered using the object recognition model YOLOv10. However, there are cases where data that is not properly filtered remains. Here, image reclassification was performed by additionally utilizing the distance output from the Siamese network, and higher performance was recorded than other classification models. (average \_f1 score YOLO+MobileNet 0.678->YOLO+SiameseNet 0.772)) The user can specify a distance threshold to adjust the balance between data deficiency and noise-robustness. The authors also found that the Siamese network can achieve higher performance with fewer resources because the cropped images are used for object recognition when processing images in the Siamese network. (Class 20 mean-based f1 score, non-crop+Siamese(MobileNetV3-Small) 80.94 -> crop preprocessing+Siamese(MobileNetV3-Small) 82.31) In this way, the image retrieval system that utilizes two consecutive models to reduce errors can save users’ time and effort, and build better quality data faster and with fewer resources than before.

arxiv情報

著者 Chan Young Shin,Ah Hyun Lee,Jun Young Lee,Ji Min Lee,Soo Jin Park
発行日 2024-10-16 13:36:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク