Audio-Visual Contact Classification for Tree Structures in Agriculture

要約

剪定や収穫などの農業における接触豊富な操作タスクでは、ロボットが木の構造と物理的に相互作用して、散らかった葉を介して操作する必要があります。
ロボットが剛性材料または柔らかい材料に接触しているかどうかを特定することは、下流の操作ポリシーが安全であるために重要ですが、この非構造化された環境での咬合と限られた視点のために視力だけでは不十分です。
これに対処するために、Vibrotactile(Audio)と視覚入力を融合するマルチモーダル分類フレームワークを提案して、葉、小枝、トランク、または周囲の接触クラスを識別します。
私たちの重要な洞察は、接触誘発振動には材料固有の信号があり、オーディオが接触イベントを検出し、材料タイプを区別するのに効果的であることです。一方、視覚的な機能は、より微細な分類をサポートする補完的なセマンティックキューを追加します。
ハンドヘルドセンサープローブを使用してトレーニングデータを収集し、ロボットに取り付けられたプローブの実施形態にゼロショット一般化を実証し、0.82のF1スコアを達成します。
これらの結果は、構造化されていない接触豊富な環境での操作のための視聴覚学習の可能性を強調しています。

要約(オリジナル)

Contact-rich manipulation tasks in agriculture, such as pruning and harvesting, require robots to physically interact with tree structures to maneuver through cluttered foliage. Identifying whether the robot is contacting rigid or soft materials is critical for the downstream manipulation policy to be safe, yet vision alone is often insufficient due to occlusion and limited viewpoints in this unstructured environment. To address this, we propose a multi-modal classification framework that fuses vibrotactile (audio) and visual inputs to identify the contact class: leaf, twig, trunk, or ambient. Our key insight is that contact-induced vibrations carry material-specific signals, making audio effective for detecting contact events and distinguishing material types, while visual features add complementary semantic cues that support more fine-grained classification. We collect training data using a hand-held sensor probe and demonstrate zero-shot generalization to a robot-mounted probe embodiment, achieving an F1 score of 0.82. These results underscore the potential of audio-visual learning for manipulation in unstructured, contact-rich environments.

arxiv情報

著者 Ryan Spears,Moonyoung Lee,George Kantor,Oliver Kroemer
発行日 2025-05-19 03:28:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク