MinkSORT: A 3D deep feature extractor using sparse convolutions to improve 3D multi-object tracking in greenhouse tomato plants

要約

農産食品業界は、労働力不足の課題に対処するためにロボットに注目しています。
しかし、農産物と食品の環境は、変動性と遮蔽性が高いため、ロボットにとって困難をもたらします。
こうした課題がある中で、ロボットがタスクを正確に実行するには、オブジェクトの位置、形状、特性に関する情報を備えた正確な世界モデルが不可欠です。
農産物環境の複雑かつ独特な性質のため、このようなモデルの構築は困難であり、モデル内のエラーはタスク実行の問題につながる可能性があります。
この論文では、農業・食品環境におけるワールドモデルの精度を向上させるために、deepSORT のようなアプローチで 3D スパース畳み込みネットワークを使用して追跡特徴を生成する新しい方法である MinkSORT を提案します。
トマト温室で収集された現実世界のデータを使用して特徴抽出ネットワークを評価しました。これにより、カルマン フィルターとマハラノビス距離を使用してトマトの位置を 3D で追跡するベースライン モデルのパフォーマンスが大幅に向上しました。
当社の深層学習特徴抽出機能により、HOTA は 42.8% から 44.77%、関連付け精度は 32.55% から 35.55%、MOTA は 57.63% から 58.81% に向上しました。
また、深層学習特徴抽出器をトレーニングするためのさまざまなコントラスト損失関数を評価し、このアプローチが 3 つの個別の精度とリコール検出結果の点でパフォーマンスの向上につながることを実証しました。
私たちの手法により、世界モデルの精度が向上し、ロボットが収穫や植物のメンテナンスなどの作業をより効率的かつ正確に実行できるようになります。これは、増大する食料需要に持続可能な方法で応えるために不可欠です。

要約(オリジナル)

The agro-food industry is turning to robots to address the challenge of labour shortage. However, agro-food environments pose difficulties for robots due to high variation and occlusions. In the presence of these challenges, accurate world models, with information about object location, shape, and properties, are crucial for robots to perform tasks accurately. Building such models is challenging due to the complex and unique nature of agro-food environments, and errors in the model can lead to task execution issues. In this paper, we propose MinkSORT, a novel method for generating tracking features using a 3D sparse convolutional network in a deepSORT-like approach to improve the accuracy of world models in agro-food environments. We evaluated our feature extractor network using real-world data collected in a tomato greenhouse, which significantly improved the performance of our baseline model that tracks tomato positions in 3D using a Kalman filter and Mahalanobis distance. Our deep learning feature extractor improved the HOTA from 42.8% to 44.77%, the association accuracy from 32.55% to 35.55%, and the MOTA from 57.63% to 58.81%. We also evaluated different contrastive loss functions for training our deep learning feature extractor and demonstrated that our approach leads to improved performance in terms of three separate precision and recall detection outcomes. Our method improves world model accuracy, enabling robots to perform tasks such as harvesting and plant maintenance with greater efficiency and accuracy, which is essential for meeting the growing demand for food in a sustainable manner.

arxiv情報

著者 David Rapado-Rincon,Eldert J. van Henten,Gert Kootstra
発行日 2023-07-11 12:44:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク