MinkSORT: A 3D deep feature extractor using sparse convolutions to improve 3D multi-object tracking in greenhouse tomato plants

要約

農産食品業界は、労働力不足の課題に対処するためにロボットに注目しています。
しかし、農産物と食品の環境は、変動性と遮蔽性が高いため、ロボットにとって困難をもたらします。
こうした課題がある中で、ロボットがタスクを正確に実行するには、オブジェクトの位置、形状、特性に関する情報を備えた正確な世界モデルが不可欠です。
農産物環境の複雑かつ独特な性質のため、このようなモデルの構築は困難であり、モデル内のエラーはタスク実行の問題につながる可能性があります。
この論文では、農業食品環境におけるワールド モデルの精度を向上させるために、deepSORT のようなアプローチで 3D スパース畳み込みネットワークを使用して追跡特徴を生成する新しい方法である MinkSORT を提案します。
MinkSORT はトマト温室で収集された実世界のデータを使用して評価され、カルマン フィルターとマハラノビス距離を使用してトマトの位置を 3D で追跡するベースライン モデルのパフォーマンスが大幅に向上しました。
MinkSORT は、HOTA を 42.8% から 44.77%、関連付け精度を 32.55% から 35.55%、MOTA を 57.63% から 58.81% に改善しました。
MinkSORT をトレーニングするためのさまざまなコントラスト損失関数も評価され、それが 3 つの個別の精度とリコール検出結果の観点からパフォーマンスの向上につながることが実証されました。
提案された方法により、ワールドモデルの精度が向上し、ロボットが収穫や植物のメンテナンスなどの作業をより効率的かつ正確に実行できるようになります。これは、増大する食料需要に持続可能な方法で応えるために不可欠です。

要約(オリジナル)

The agro-food industry is turning to robots to address the challenge of labour shortage. However, agro-food environments pose difficulties for robots due to high variation and occlusions. In the presence of these challenges, accurate world models, with information about object location, shape, and properties, are crucial for robots to perform tasks accurately. Building such models is challenging due to the complex and unique nature of agro-food environments, and errors in the model can lead to task execution issues. In this paper, MinkSORT, a novel method for generating tracking features using a 3D sparse convolutional network in a deepSORT-like approach, is proposed to improve the accuracy of world models in agro-food environments. MinkSORT was evaluated using real-world data collected in a tomato greenhouse, where it significantly improved the performance of a baseline model that tracks tomato positions in 3D using a Kalman filter and Mahalanobis distance. MinkSORT improved the HOTA from 42.8% to 44.77%, the association accuracy from 32.55% to 35.55%, and the MOTA from 57.63% to 58.81%. Different contrastive loss functions for training MinkSORT were also evaluated, and it was demonstrated that it leads to improved performance in terms of three separate precision and recall detection outcomes. The proposed method improves world model accuracy, enabling robots to perform tasks such as harvesting and plant maintenance with greater efficiency and accuracy, which is essential for meeting the growing demand for food in a sustainable manner.

arxiv情報

著者 David Rapado-Rincon,Eldert J. van Henten,Gert Kootstra
発行日 2024-12-18 20:53:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク