要約
関連するオブジェクトを正確に表現し、位置を特定する能力は、ロボットがタスクを効果的に実行するために不可欠です。
ロボットが単純に画像をキャプチャし、その画像を処理してアクションを実行し、その後情報を忘れるという従来のアプローチは、オクルージョンがあると困難であることが証明されています。
多視点知覚を使用する方法は、これらの問題の一部に対処できる可能性があり、複数の視点からの情報の収集、統合、抽出をガイドする世界モデルを必要とします。
さらに、さまざまな環境やタスクに適用できる汎用表現を構築することは困難な課題です。
この論文では、多視点知覚と 3D マルチオブジェクト追跡を使用して、遮蔽された農業食品環境で一般的な表現を構築するための新しいアプローチを紹介します。
この方法は、検出されたオブジェクトごとに部分的な点群を生成する検出アルゴリズムに基づいており、その後、時間の経過とともに表現を更新する 3D マルチオブジェクト追跡アルゴリズムが続きます。
表現の精度は現実世界の環境で評価され、高レベルの遮蔽にもかかわらず、トマト植物内のトマトの表現と位置特定が成功し、トマトの総数は最大誤差 5.08% で推定され、トマトの位置が特定されました。
最大 71.47% の精度で追跡されます。
新しい追跡メトリックが導入され、果物の位置特定と表現におけるエラーに対する貴重な洞察が、それらを使用することによって得られることが実証されました。
このアプローチは、遮蔽された農産物・食品環境で表現を構築するための新しいソリューションを提供し、ロボットがこれらの困難な環境でタスクを効果的に実行できる可能性を実証します。
要約(オリジナル)
The ability to accurately represent and localise relevant objects is essential for robots to carry out tasks effectively. Traditional approaches, where robots simply capture an image, process that image to take an action, and then forget the information, have proven to struggle in the presence of occlusions. Methods using multi-view perception, which have the potential to address some of these problems, require a world model that guides the collection, integration and extraction of information from multiple viewpoints. Furthermore, constructing a generic representation that can be applied in various environments and tasks is a difficult challenge. In this paper, a novel approach for building generic representations in occluded agro-food environments using multi-view perception and 3D multi-object tracking is introduced. The method is based on a detection algorithm that generates partial point clouds for each detected object, followed by a 3D multi-object tracking algorithm that updates the representation over time. The accuracy of the representation was evaluated in a real-world environment, where successful representation and localisation of tomatoes in tomato plants were achieved, despite high levels of occlusion, with the total count of tomatoes estimated with a maximum error of 5.08% and the tomatoes tracked with an accuracy up to 71.47%. Novel tracking metrics were introduced, demonstrating that valuable insight into the errors in localising and representing the fruits can be provided by their use. This approach presents a novel solution for building representations in occluded agro-food environments, demonstrating potential to enable robots to perform tasks effectively in these challenging environments.
arxiv情報
著者 | David Rapado Rincon,Eldert J. van Henten,Gert Kootstra |
発行日 | 2023-07-11 19:04:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google