Robot Skin with Touch and Bend Sensing using Electrical Impedance Tomography

要約

タッチとベンドを同時に感知する柔軟な電子スキンは、明確なロボット構造をカバーするなど、いくつかのアプリケーション領域で望まれます。
このペーパーでは、電気インピーダンス断層撮影(EIT)に基づいた柔軟な触覚センサーを紹介し、同時に接触力とセンサーの屈曲を検出および測定できます。
センサーは磁気ヒドロゲル複合材を統合し、EITを利用して内部導電性分布を再構築します。
リアルタイムの推定は、1段階のGauss-Newtonメソッドを介して達成されます。これにより、参照電圧を動的に更新してセンサーの変形に対応します。
畳み込みニューラルネットワークが採用され、相互作用を分類し、再構築された画像を使用してタッチ、曲げ、およびアイドル状態を区別します。
実験結果は、5.4 mm(SD 2.2 mm)の平均タッチ局在誤差と、1.9 $^\ circ $(SD 1.6 $^\ circ $)の平均曲げ角推定誤差を示しています。
提案された適応参照法は、変形効果を補償しながら、単一タッチとマルチタッチのシナリオを効果的に区別します。
これにより、センサーは、ロボット工学とヒューマンロボットコラボレーションにおけるマルチモーダルセンシングの有望なソリューションになります。

要約(オリジナル)

Flexible electronic skins that simultaneously sense touch and bend are desired in several application areas, such as to cover articulated robot structures. This paper introduces a flexible tactile sensor based on Electrical Impedance Tomography (EIT), capable of simultaneously detecting and measuring contact forces and flexion of the sensor. The sensor integrates a magnetic hydrogel composite and utilizes EIT to reconstruct internal conductivity distributions. Real-time estimation is achieved through the one-step Gauss-Newton method, which dynamically updates reference voltages to accommodate sensor deformation. A convolutional neural network is employed to classify interactions, distinguishing between touch, bending, and idle states using pre-reconstructed images. Experimental results demonstrate an average touch localization error of 5.4 mm (SD 2.2 mm) and average bending angle estimation errors of 1.9$^\circ$ (SD 1.6$^\circ$). The proposed adaptive reference method effectively distinguishes between single- and multi-touch scenarios while compensating for deformation effects. This makes the sensor a promising solution for multimodal sensing in robotics and human-robot collaboration.

arxiv情報

著者 Haofeng Chen,Bin Li,Bedrich Himmel,Xiaojie Wang,Matej Hoffmann
発行日 2025-03-17 10:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robot Skin with Touch and Bend Sensing using Electrical Impedance Tomography はコメントを受け付けていません

Mitigating Cross-Modal Distraction and Ensuring Geometric Feasibility via Affordance-Guided, Self-Consistent MLLMs for Food Preparation Task Planning

要約

食品準備タスク計画のためのコンテキスト学習を使用して、マルチモーダル大手言語モデル(MLLM)を研究しています。
これに関連して、2つの重要な課題を特定します。クロスモーダルの注意散漫と幾何学的な実現可能性です。
視覚入力を含めるとMLLMの推論パフォーマンスを分解すると、クロスモーダルの注意散漫が発生します。
幾何学的な実現可能性とは、選択したスキルが環境で物理的に実行可能であることを保証するMLLMの能力を指します。
これらの問題に対処するために、私たちは自己整合性を備えた思考の連鎖(COT)を適応させて、モーダルの注意散漫からの推論の損失を軽減し、アフォーダンス予測子をスキルの前提条件として使用して、MLLMを幾何学の実現可能性に導きます。
数量推定、到達可能性分析、相対的な位置付け、衝突回避に対するMLLMの能力を評価するためのデータセットを構築します。
さまざまなベースライン間の問題を特定し、改善の理由を分析するための詳細な評価を実施し、各アプローチに関する洞察を提供しました。
私たちの方法は、データセット全体で76.7%の成功率に達し、COTベースラインよりも36.7%の大幅な改善を示しています。

要約(オリジナル)

We study Multimodal Large Language Models (MLLMs) with in-context learning for food preparation task planning. In this context, we identify two key challenges: cross-modal distraction and geometric feasibility. Cross-modal distraction occurs when the inclusion of visual input degrades the reasoning performance of a MLLM. Geometric feasibility refers to the ability of MLLMs to ensure that the selected skills are physically executable in the environment. To address these issues, we adapt Chain of Thought (CoT) with Self-Consistency to mitigate reasoning loss from cross-modal distractions and use affordance predictor as skill preconditions to guide MLLM on geometric feasibility. We construct a dataset to evaluate the ability of MLLMs on quantity estimation, reachability analysis, relative positioning and collision avoidance. We conducted a detailed evaluation to identify issues among different baselines and analyze the reasons for improvement, providing insights into each approach. Our method reaches a success rate of 76.7% on the entire dataset, showing a substantial improvement over the CoT baseline at 36.7%.

arxiv情報

著者 Yu-Hong Shen,Chuan-Yu Wu,Yi-Ru Yang,Yen-Ling Tai,Yi-Ting Chen
発行日 2025-03-17 11:01:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Mitigating Cross-Modal Distraction and Ensuring Geometric Feasibility via Affordance-Guided, Self-Consistent MLLMs for Food Preparation Task Planning はコメントを受け付けていません

Vision-based automatic fruit counting with UAV

要約

賢い農業のために無人航空機(UAV)の使用がますます人気が高まっています。
これは、最近の科学的研究と、このトピックに関するさまざまな競争によって証明されています。
したがって、この作業では、UAVを使用して自動果実カウントのシステムを提示します。
それらを検出するために、私たちのソリューションは、RGBカメラからストリーミングを処理するビジョンアルゴリズムと、古典的な画像操作を使用して深度センサーを使用します。
また、私たちのシステムは、飛行時間と距離の最小化を考慮して、飛行軌道の計画と実行を許可します。
提案されたソリューションをシミュレーションでテストし、合計500ミッションから平均スコア87.27/100ポイントを取得しました。
また、ICUAS 2024カンファレンスの一環として開催されたUAVコンペティションにも提出しました。そこでは、平均スコア84.83/100ポイントを達成し、23チームのフィールドに6位になり、決勝に進出しました。

要約(オリジナル)

The use of unmanned aerial vehicles (UAVs) for smart agriculture is becoming increasingly popular. This is evidenced by recent scientific works, as well as the various competitions organised on this topic. Therefore, in this work we present a system for automatic fruit counting using UAVs. To detect them, our solution uses a vision algorithm that processes streams from an RGB camera and a depth sensor using classical image operations. Our system also allows the planning and execution of flight trajectories, taking into account the minimisation of flight time and distance covered. We tested the proposed solution in simulation and obtained an average score of 87.27/100 points from a total of 500 missions. We also submitted it to the UAV Competition organised as part of the ICUAS 2024 conference, where we achieved an average score of 84.83/100 points, placing 6th in a field of 23 teams and advancing to the finals.

arxiv情報

著者 Hubert Szolc,Mateusz Wasala,Remigiusz Mietla,Kacper Iwicki,Tomasz Kryjak
発行日 2025-03-17 11:36:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | Vision-based automatic fruit counting with UAV はコメントを受け付けていません

Free-form language-based robotic reasoning and grasping

要約

人間の指示に基づいて散らかったビンからロボット把握を実行することは、自由形式のニュアンスとオブジェクト間の空間的関係の両方を理解する必要があるため、挑戦的な作業です。
GPT-4OなどのWebスケールデータでトレーニングされたビジョン言語モデル(VLM)は、テキストと画像の両方で顕著な推論機能を実証しています。
しかし、それらはゼロショット設定でこのタスクに本当に使用できますか?
そして、彼らの限界は何ですか?
この論文では、フリーフォームの言語ベースのロボットグラッピングタスクを介してこれらの研究の質問を調査し、フリーグラスの新しい方法を提案し、事前に訓練されたVLMの世界知識を活用して、人間の指示とオブジェクトの空間的配置について推論します。
私たちの方法は、すべてのオブジェクトをキーポイントとして検出し、これらのキーポイントを使用して画像にマークを注釈を付け、GPT-4Oのゼロショットの空間推論を促進することを目指しています。
これにより、私たちの方法は、要求されたオブジェクトが直接把握できるかどうか、または他のオブジェクトを最初に把握して削除する必要があるかどうかを判断できます。
既存のデータセットはこのタスク用に特別に設計されていないため、MetAgraspNetv2データセットをヒトが注目した命令とグラウンドトゥルースグレーシングシーケンスを拡張することにより、合成データセットのフリーグラスダタを導入します。
グリッパー装備のロボットアームを使用して、FreeGraspDataと実世界の両方の検証を使用して広範な分析を実施し、把握の推論と実行の最先端のパフォーマンスを示しています。
プロジェクトWebサイト:https://tev-fbk.github.io/freegrasp/。

要約(オリジナル)

Performing robotic grasping from a cluttered bin based on human instructions is a challenging task, as it requires understanding both the nuances of free-form language and the spatial relationships between objects. Vision-Language Models (VLMs) trained on web-scale data, such as GPT-4o, have demonstrated remarkable reasoning capabilities across both text and images. But can they truly be used for this task in a zero-shot setting? And what are their limitations? In this paper, we explore these research questions via the free-form language-based robotic grasping task, and propose a novel method, FreeGrasp, leveraging the pre-trained VLMs’ world knowledge to reason about human instructions and object spatial arrangements. Our method detects all objects as keypoints and uses these keypoints to annotate marks on images, aiming to facilitate GPT-4o’s zero-shot spatial reasoning. This allows our method to determine whether a requested object is directly graspable or if other objects must be grasped and removed first. Since no existing dataset is specifically designed for this task, we introduce a synthetic dataset FreeGraspData by extending the MetaGraspNetV2 dataset with human-annotated instructions and ground-truth grasping sequences. We conduct extensive analyses with both FreeGraspData and real-world validation with a gripper-equipped robotic arm, demonstrating state-of-the-art performance in grasp reasoning and execution. Project website: https://tev-fbk.github.io/FreeGrasp/.

arxiv情報

著者 Runyu Jiao,Alice Fasoli,Francesco Giuliari,Matteo Bortolon,Sergio Povoli,Guofeng Mei,Yiming Wang,Fabio Poiesi
発行日 2025-03-17 11:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Free-form language-based robotic reasoning and grasping はコメントを受け付けていません

Multi-Platform Teach-and-Repeat Navigation by Visual Place Recognition Based on Deep-Learned Local Features

要約

均一で可変的な環境は、モバイルロボットナビゲーションにおける安定した視覚的ローカリゼーションとマッピングの依然として課題です。
このような環境に適した可能なアプローチの1つは、標準マッピングを必要とせずに、単純化されたローカリゼーションとリアクティブロボットモーションコントロールに依存する外観ベースのティーチアンドリピートナビゲーションです。
この作業は、視覚的な場所認識技術に基づいて、このようなシステムに革新的なソリューションをもたらします。
ここでは、主要な貢献は、新しい視覚的な場所認識技術、新しい水平シフト計算アプローチ、およびさまざまな種類のモバイルロボットにわたるアプリケーション向けのマルチプラットフォームシステム設計の採用にあります。
第二に、外観ベースのナビゲーション方法の実験的テストのための新しいパブリックデータセットが導入されています。
さらに、この作業は、導入されたナビゲーションシステムの他の最先端の方法との実世界の実験テストとパフォーマンスの比較も提供します。
結果は、新しいシステムがいくつかのテストシナリオで既存の方法を上回り、屋内および屋外で操作できることを確認し、昼夜を帯びたシーンのバリエーションに堅牢性を示しています。

要約(オリジナル)

Uniform and variable environments still remain a challenge for stable visual localization and mapping in mobile robot navigation. One of the possible approaches suitable for such environments is appearance-based teach-and-repeat navigation, relying on simplified localization and reactive robot motion control – all without a need for standard mapping. This work brings an innovative solution to such a system based on visual place recognition techniques. Here, the major contributions stand in the employment of a new visual place recognition technique, a novel horizontal shift computation approach, and a multi-platform system design for applications across various types of mobile robots. Secondly, a new public dataset for experimental testing of appearance-based navigation methods is introduced. Moreover, the work also provides real-world experimental testing and performance comparison of the introduced navigation system against other state-of-the-art methods. The results confirm that the new system outperforms existing methods in several testing scenarios, is capable of operation indoors and outdoors, and exhibits robustness to day and night scene variations.

arxiv情報

著者 Václav Truhlařík,Tomáš Pivoňka,Michal Kasarda,Libor Přeučil
発行日 2025-03-17 11:57:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Multi-Platform Teach-and-Repeat Navigation by Visual Place Recognition Based on Deep-Learned Local Features はコメントを受け付けていません

LIVEPOINT: Fully Decentralized, Safe, Deadlock-Free Multi-Robot Control in Cluttered Environments with High-Dimensional Inputs

要約

ダイナミックで乱雑な環境での完全に分散型、安全で、デッドロックフリーのマルチロボットナビゲーションは、ロボット工学における重要な課題です。
現在の方法では、安全性と活性を実施するために、正確な状態測定が必要です。
制御バリア関数(CBFS)を介して、LIDARやカメラなどのオンボードセンサーから直接達成することが困難です。
この作業では、ダイナミックで乱雑な環境で安全でデッドロックフリーのリアルタイムマルチロボットナビゲーションを可能にするために、ポイントクラウド上のユニバーサルCBFを合成する分散型制御フレームワークであるLivePointを紹介します。
さらに、LivePointは、新しい対称相互作用メトリックに基づいてエージェントの速度を動的に調整することにより、最小限の侵襲的なデッドロック回避動作を保証します。
出入り口や交差点など、非常に制約されたマルチロボットシナリオを越えて、シミュレーション実験でアプローチを検証します。
結果は、LivePointがMPCやORCAなどの最適化ベースのベースラインや、そのような環境で失敗するMPNETなどのニューラル法と比較して、困難な設定でゼロ衝突またはデッドロックを達成することを示しています。
安全性と活気に優先順位を付けているにもかかわらず、LivePointは戸口環境のベースラインよりも35%スムーズであり、安全でデッドロックのない環境で俊敏性を維持します。

要約(オリジナル)

Fully decentralized, safe, and deadlock-free multi-robot navigation in dynamic, cluttered environments is a critical challenge in robotics. Current methods require exact state measurements in order to enforce safety and liveness e.g. via control barrier functions (CBFs), which is challenging to achieve directly from onboard sensors like lidars and cameras. This work introduces LIVEPOINT, a decentralized control framework that synthesizes universal CBFs over point clouds to enable safe, deadlock-free real-time multi-robot navigation in dynamic, cluttered environments. Further, LIVEPOINT ensures minimally invasive deadlock avoidance behavior by dynamically adjusting agents’ speeds based on a novel symmetric interaction metric. We validate our approach in simulation experiments across highly constrained multi-robot scenarios like doorways and intersections. Results demonstrate that LIVEPOINT achieves zero collisions or deadlocks and a 100% success rate in challenging settings compared to optimization-based baselines such as MPC and ORCA and neural methods such as MPNet, which fail in such environments. Despite prioritizing safety and liveness, LIVEPOINT is 35% smoother than baselines in the doorway environment, and maintains agility in constrained environments while still being safe and deadlock-free.

arxiv情報

著者 Jeffrey Chen,Rohan Chandra
発行日 2025-03-17 12:07:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO, cs.SY, eess.SY | LIVEPOINT: Fully Decentralized, Safe, Deadlock-Free Multi-Robot Control in Cluttered Environments with High-Dimensional Inputs はコメントを受け付けていません

MIXPINN: Mixed-Material Simulations by Physics-Informed Neural Network

要約

軟部組織と硬い解剖学の間の複雑な相互作用をシミュレートすることは、外科的訓練、計画、およびロボット支援介入のアプリケーションにとって重要です。
従来の有限要素法(FEM)ベースのシミュレーションは、正確ですが、リアルタイムシナリオにとっては計算高価で非実用的です。
学習ベースのアプローチは、予測を加速することで有望であることを示していますが、柔らかい倍率の相互作用を効果的にモデリングするのに不足しています。
混合物質シミュレーション用の物理情報に基づいたグラフニューラルネットワーク(GNN)フレームワークであるMixPinnを紹介し、グラフベースの増強を使用してソフトリギッド相互作用を明示的にキャプチャします。
当社のアプローチは、仮想ノード(VNS)と仮想エッジ(VE)を統合して、計算効率を維持しながら剛体の制約満足度を高めます。
生体力学的構造のグラフベースの表現を活用することにより、Mixpinnはフェム生成データから高忠実度の変形を学習し、サブミリメーターの精度でリアルタイムの推論を達成します。
ベースラインGNNモデルや従来のFEM方法と比較して優れたパフォーマンスを実証する現実的な臨床シナリオでの方法を検証します。
私たちの結果は、Mixpinnが高い身体的精度を維持しながら計算コストを数桁削減し、リアルタイムの外科シミュレーションとロボット支援手順のための実行可能なソリューションになっていることを示しています。

要約(オリジナル)

Simulating the complex interactions between soft tissues and rigid anatomy is critical for applications in surgical training, planning, and robotic-assisted interventions. Traditional Finite Element Method (FEM)-based simulations, while accurate, are computationally expensive and impractical for real-time scenarios. Learning-based approaches have shown promise in accelerating predictions but have fallen short in modeling soft-rigid interactions effectively. We introduce MIXPINN, a physics-informed Graph Neural Network (GNN) framework for mixed-material simulations, explicitly capturing soft-rigid interactions using graph-based augmentations. Our approach integrates Virtual Nodes (VNs) and Virtual Edges (VEs) to enhance rigid body constraint satisfaction while preserving computational efficiency. By leveraging a graph-based representation of biomechanical structures, MIXPINN learns high-fidelity deformations from FEM-generated data and achieves real-time inference with sub-millimeter accuracy. We validate our method in a realistic clinical scenario, demonstrating superior performance compared to baseline GNN models and traditional FEM methods. Our results show that MIXPINN reduces computational cost by an order of magnitude while maintaining high physical accuracy, making it a viable solution for real-time surgical simulation and robotic-assisted procedures.

arxiv情報

著者 Xintian Yuan,Yunke Ao,Boqi Chen,Philipp Fuernstahl
発行日 2025-03-17 12:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | MIXPINN: Mixed-Material Simulations by Physics-Informed Neural Network はコメントを受け付けていません

Rapid and Inexpensive Inertia Tensor Estimation from a Single Object Throw

要約

慣性テンソルは多くのエンジニアリング分野で重要なパラメーターですが、測定することは面倒で、複数の実験または正確で高価な機器を伴う場合があります。
ジャイロスコープ、加速度計、反応ホイールで構成される小さくて安価なスタンドアロン測定デバイスを取り付けることにより、単一の回転スローからの剛体の慣性テンソルのモーメントを測定する方法を提案します。
この方法には、測定デバイスを身体に追加するための慣性モーメントの増加に対する補償が含まれ、さらに中間結果として身体の重心の位置を取得します。
既知の剛体で行われた実験は、平均精度が約2 \%であることを示しています。

要約(オリジナル)

The inertia tensor is an important parameter in many engineering fields, but measuring it can be cumbersome and involve multiple experiments or accurate and expensive equipment. We propose a method to measure the moment of inertia tensor of a rigid body from a single spinning throw, by attaching a small and inexpensive stand-alone measurement device consisting of a gyroscope, accelerometer and a reaction wheel. The method includes a compensation for the increase of moment of inertia due to adding the measurement device to the body, and additionally obtains the location of the centre of gravity of the body as an intermediate result. Experiments performed with known rigid bodies show that the mean accuracy is around 2\%.

arxiv情報

著者 Till M. Blaha,Mike M. Kuijper,Radu Pop,Ewoud J. J. Smeur
発行日 2025-03-17 13:05:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Rapid and Inexpensive Inertia Tensor Estimation from a Single Object Throw はコメントを受け付けていません

HybridGen: VLM-Guided Hybrid Planning for Scalable Data Generation of Imitation Learning

要約

ロボット模倣学習の一般化を改善するためには、大規模で多様なデモデータの獲得が不可欠です。
ただし、複雑な操作のためにそのようなデータを生成することは、実際の設定では困難です。
Vision-Language Model(VLM)とハイブリッド計画を統合する自動化されたフレームワークであるHybridgenを紹介します。
Hybridgenは2段階のパイプラインを使用します。まず、VLMは専門家のデモンストレーションを解析し、タスクをエキスパート依存(正確な制御のためのオブジェクト中心のポーズ変換)および計画可能なセグメント(パス計画による多様な軌跡の合成)に分解します。
第二に、変換は第1段階のデータを大幅に拡張します。
重要なことに、Hybridgenは特定のデータ形式を必要とせずに大量のトレーニングデータを生成し、幅広い模倣学習アルゴリズムに広く適用できます。これは、複数のアルゴリズムで経験的に実証する特性です。
7つのタスクとそのバリエーションにわたる評価は、ハイブリッド体で訓練されたエージェントがかなりのパフォーマンスと一般化の利益を達成し、最新の方法よりも平均5%の改善を達成することを示しています。
特に、最も困難なタスクバリアントでは、ハイブリッドゲンは大幅な改善を達成し、平均成功率が59.7%に達し、Mimicenの49.5%を大幅に上回ります。
これらの結果は、その有効性と実用性を示しています。

要約(オリジナル)

The acquisition of large-scale and diverse demonstration data are essential for improving robotic imitation learning generalization. However, generating such data for complex manipulations is challenging in real-world settings. We introduce HybridGen, an automated framework that integrates Vision-Language Model (VLM) and hybrid planning. HybridGen uses a two-stage pipeline: first, VLM to parse expert demonstrations, decomposing tasks into expert-dependent (object-centric pose transformations for precise control) and plannable segments (synthesizing diverse trajectories via path planning); second, pose transformations substantially expand the first-stage data. Crucially, HybridGen generates a large volume of training data without requiring specific data formats, making it broadly applicable to a wide range of imitation learning algorithms, a characteristic which we also demonstrate empirically across multiple algorithms. Evaluations across seven tasks and their variants demonstrate that agents trained with HybridGen achieve substantial performance and generalization gains, averaging a 5% improvement over state-of-the-art methods. Notably, in the most challenging task variants, HybridGen achieves significant improvement, reaching a 59.7% average success rate, significantly outperforming Mimicgen’s 49.5%. These results demonstrating its effectiveness and practicality.

arxiv情報

著者 Wensheng Wang,Ning Tan
発行日 2025-03-17 13:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | HybridGen: VLM-Guided Hybrid Planning for Scalable Data Generation of Imitation Learning はコメントを受け付けていません

3D Hierarchical Panoptic Segmentation in Real Orchard Environments Across Different Sensors

要約

作物の収穫量の推定は、正確な作物収量の推定値が農民の収穫または精度の介入に関する決定をサポートできるため、農業に関連する問題です。
ロボットは、このプロセスを自動化するのに役立ちます。
そのためには、ターゲットオブジェクトを特定するために周囲の環境を知覚できる必要があります。
この論文では、さまざまなセンサーの3DデータでのApple Orchardsの階層的なパノプティックセグメンテーションの問題に対処するための新しいアプローチを紹介します。
私たちのアプローチは、セマンティックセグメンテーション、トランクと果物のインスタンスセグメンテーション、および植物のインスタンスセグメンテーション(果物を含む単一のトランク)を同時に提供することができます。
これにより、個々の植物、果物、トランクなどの関連情報を特定し、果樹園の各木に関連する果物の数を正確に推定するなど、それらの関係を捉えることができます。
さらに、階層的なパノプティックセグメンテーションのアプローチを効率的に評価するために、このタスク用に特別に設計されたデータセットを提供します。
私たちのデータセットは、地上レーザースキャナーからさまざまなロボットプラットフォームに取り付けられたRGB-Dカメラまで、さまざまなセンサーを備えた本物のアップルオーチャードのBonnに記録されています。
実験は、私たちのアプローチが農業領域での3Dパノプティックセグメンテーションで最先端のアプローチを上回り、同時に完全な階層的なパノプティックセグメンテーションを提供することを示しています。
データセットはhttps://www.ipb.uni-bonn.de/data/hops/で公開されています。
私たちは、紙の受け入れ時に隠されたテストセットに関する階層的なパノプティックセグメンテーションのためのアプローチとパブリック競合のオープンソースの実装を提供します。

要約(オリジナル)

Crop yield estimation is a relevant problem in agriculture, because an accurate crop yield estimate can support farmers’ decisions on harvesting or precision intervention. Robots can help to automate this process. To do so, they need to be able to perceive the surrounding environment to identify target objects. In this paper, we introduce a novel approach to address the problem of hierarchical panoptic segmentation of apple orchards on 3D data from different sensors. Our approach is able to simultaneously provide semantic segmentation, instance segmentation of trunks and fruits, and instance segmentation of plants (a single trunk with its fruits). This allows us to identify relevant information such as individual plants, fruits, and trunks, and capture the relationship among them, such as precisely estimate the number of fruits associated to each tree in an orchard. Additionally, to efficiently evaluate our approach for hierarchical panoptic segmentation, we provide a dataset designed specifically for this task. Our dataset is recorded in Bonn in a real apple orchard with a variety of sensors, spanning from a terrestrial laser scanner to a RGB-D camera mounted on different robotic platforms. The experiments show that our approach surpasses state-of-the-art approaches in 3D panoptic segmentation in the agricultural domain, while also providing full hierarchical panoptic segmentation. Our dataset has been made publicly available at https://www.ipb.uni-bonn.de/data/hops/. We will provide the open-source implementation of our approach and public competiton for hierarchical panoptic segmentation on the hidden test sets upon paper acceptance.

arxiv情報

著者 Matteo Sodano,Federico Magistri,Elias Marks,Fares Hosn,Aibek Zurbayev,Rodrigo Marcuzzi,Meher V. R. Malladi,Jens Behley,Cyrill Stachniss
発行日 2025-03-17 13:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | 3D Hierarchical Panoptic Segmentation in Real Orchard Environments Across Different Sensors はコメントを受け付けていません