要約
現在、農産食品業界では自動化が求められており、ロボット操作を成功させるには、関連するオブジェクトを 3D で正確に検出して位置特定することが不可欠です。
ただし、オクルージョンが存在するため、これは困難です。
多視点認識アプローチにより、ロボットはオクルージョンを克服できますが、複数の視点にわたってロボットによって検出されたオブジェクトを関連付けるためには追跡コンポーネントが必要です。
マルチオブジェクト追跡 (MOT) アルゴリズムは、2 段階法と 1 段階法に分類できます。
2 段階の方法は、カスタム アプリケーションへの適応と実装が簡単になる傾向がありますが、1 段階の方法では、より複雑なエンドツーエンドの追跡方法が提供され、より多くのトレーニング データを犠牲にして、遮蔽された状況でより良い結果を得ることができます。
2 段階方法に対する 1 段階方法の潜在的な利点は、ロボットが処理する必要がある一連の視点の複雑さに依存します。
この研究では、複雑さのレベルが異なる 3 つの異なるタイプのシーケンスで、3D 2 ステージ MOT アルゴリズム 3D-SORT と 3D 1 ステージ MOT アルゴリズム MOT-DETR を比較します。
これらのシーケンスは、ロボット アームがトマト温室で実行できる、より単純な動作とより複雑な動作を表しています。
トマト温室での実験では、特に複数の視点でオブジェクトが完全に遮られたり見えなくなったりするような、より困難なシーケンスにおいて、シングルステージ アルゴリズムの方が常に優れた追跡精度が得られることがわかりました。
要約(オリジナル)
With the current demand for automation in the agro-food industry, accurately detecting and localizing relevant objects in 3D is essential for successful robotic operations. However, this is a challenge due the presence of occlusions. Multi-view perception approaches allow robots to overcome occlusions, but a tracking component is needed to associate the objects detected by the robot over multiple viewpoints. Multi-object tracking (MOT) algorithms can be categorized between two-stage and single-stage methods. Two-stage methods tend to be simpler to adapt and implement to custom applications, while single-stage methods present a more complex end-to-end tracking method that can yield better results in occluded situations at the cost of more training data. The potential advantages of single-stage methods over two-stage methods depends on the complexity of the sequence of viewpoints that a robot needs to process. In this work, we compare a 3D two-stage MOT algorithm, 3D-SORT, against a 3D single-stage MOT algorithm, MOT-DETR, in three different types of sequences with varying levels of complexity. The sequences represent simpler and more complex motions that a robot arm can perform in a tomato greenhouse. Our experiments in a tomato greenhouse show that the single-stage algorithm consistently yields better tracking accuracy, especially in the more challenging sequences where objects are fully occluded or non-visible during several viewpoints.
arxiv情報
著者 | David Rapado-Rincon,Akshay K. Burusa,Eldert J. van Henten,Gert Kootstra |
発行日 | 2024-04-19 15:45:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google