Visual Affordances: Enabling Robots to Understand Object Functionality

要約

支援技術の人間とロボットの相互作用は、アフォーダンスの予測に依存しています。これは、ロボットがオブジェクトで実行できる潜在的なアクションです。
視覚認識からオブジェクトアフォーダンスを予測することは、把握検出、アフォーダンス分類、アフォーダンスセグメンテーション、ハンドオブジェクト相互作用合成などのタスクでは異なる方法で定式化されています。
この作業では、これらの再定義の再現性の問題を強調し、比較ベンチマークを不公平で信頼できないものにします。
この問題に対処するために、視覚的なアフォーダンス予測のための統一された定式化を提案し、方法とデータセットの強みと制限を強調した以前の作品の包括的かつ体系的なレビューを提供し、再現性の課題を分析します。
透明性を支持するために、アフォーダンスシート、提案されたソリューション、データセット、および検証を詳述するドキュメントを紹介します。
オブジェクトの物理的特性がロボットとの相互作用に影響を与えるため、視覚的なアフォーダンスの予測を物理的な世界にリンクする一般的なフレームワークを提示します。
このフレームワークの例としてオブジェクトの重みを使用して、オブジェクトの質量を推定することでアフォーダンス予測にどのように影響するかについて説明します。
私たちのアプローチは、アフォーダンスの知覚とロボットの作動の間のギャップを橋渡しし、関心のあるオブジェクトとロボットがそれらとどのように対話してタスクを達成するかについての完全な情報を説明します。

要約(オリジナル)

Human-robot interaction for assistive technologies relies on the prediction of affordances, which are the potential actions a robot can perform on objects. Predicting object affordances from visual perception is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand-object interaction synthesis. In this work, we highlight the reproducibility issue in these redefinitions, making comparative benchmarks unfair and unreliable. To address this problem, we propose a unified formulation for visual affordance prediction, provide a comprehensive and systematic review of previous works highlighting strengths and limitations of methods and datasets, and analyse what challenges reproducibility. To favour transparency, we introduce the Affordance Sheet, a document to detail the proposed solution, the datasets, and the validation. As the physical properties of an object influence the interaction with the robot, we present a generic framework that links visual affordance prediction to the physical world. Using the weight of an object as an example for this framework, we discuss how estimating object mass can affect the affordance prediction. Our approach bridges the gap between affordance perception and robot actuation, and accounts for the complete information about objects of interest and how the robot interacts with them to accomplish its task.

arxiv情報

著者 Tommaso Apicella,Alessio Xompero,Andrea Cavallaro
発行日 2025-05-08 09:10:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Visual Affordances: Enabling Robots to Understand Object Functionality はコメントを受け付けていません

Symbolic and User-friendly Geometric Algebra Routines (SUGAR) for Computations in Matlab

要約

幾何代​​数(GA)は、幾何学的コンピューティングの数学的ツールであり、他の数学システムでは通常、より複雑な要素を使用して記述される幾何学的関係に対する統一されたコンパクトなアプローチを可能にするフレームワークを提供します。
この事実は、適用された数学と工学の問題におけるGAの採用の増加につながりました。
ただし、GAの象徴的な実装とその固有の複雑さの希少性は、特定の数学的背景を必要とするため、エンジニアが協力するのは挑戦的で直感的ではありません。
これにより、より適用される専門家の間での幅広い採用が防止されます。
この課題に対処するために、このペーパーでは、MATLAB向けに設計され、MITライセンスの下でライセンスされているオープンソースツールボックスである砂糖(象徴的でユーザーフレンドリーな幾何代数ルーチン)を紹介します。
Sugarは、GAコンセプトのMATLABへの翻訳を促進し、シンボリック操作のサポートを含むGA計算に合わせたユーザーフレンドリーな機能のコレクションを提供します。
高次元ガスの数値計算と記号計算の両方をサポートします。
適用された数学およびエンジニアリングアプリケーションに特化した砂糖は、文献の確立された計算方法論に沿った2および3次元の射影および並行した幾何学的代数内の幾何学的要素と変換を表すように細心の注意を払って設計されています。
さらに、砂糖は、指数関数、対数、正弦波、コサイン関数などのマルチビューターの関数を効率的に処理し、ロボット工学、制御システム、パワーエレクトロニクスなど、さまざまなエンジニアリングドメインにわたって適用可能性を向上させます。
最後に、この作業には4つの異なる検証の例が含まれており、上記のフィールド全体に砂糖の能力を示し、現実世界の応用数学とエンジニアリングの問題に対処するための実用的な有用性を示しています。

要約(オリジナル)

Geometric algebra (GA) is a mathematical tool for geometric computing, providing a framework that allows a unified and compact approach to geometric relations which in other mathematical systems are typically described using different more complicated elements. This fact has led to an increasing adoption of GA in applied mathematics and engineering problems. However, the scarcity of symbolic implementations of GA and its inherent complexity, requiring a specific mathematical background, make it challenging and less intuitive for engineers to work with. This prevents wider adoption among more applied professionals. To address this challenge, this paper introduces SUGAR (Symbolic and User-friendly Geometric Algebra Routines), an open-source toolbox designed for Matlab and licensed under the MIT License. SUGAR facilitates the translation of GA concepts into Matlab and provides a collection of user-friendly functions tailored for GA computations, including support for symbolic operations. It supports both numeric and symbolic computations in high-dimensional GAs. Specifically tailored for applied mathematics and engineering applications, SUGAR has been meticulously engineered to represent geometric elements and transformations within two and three-dimensional projective and conformal geometric algebras, aligning with established computational methodologies in the literature. Furthermore, SUGAR efficiently handles functions of multivectors, such as exponential, logarithmic, sinusoidal, and cosine functions, enhancing its applicability across various engineering domains, including robotics, control systems, and power electronics. Finally, this work includes four distinct validation examples, demonstrating SUGAR’s capabilities across the above-mentioned fields and its practical utility in addressing real-world applied mathematics and engineering problems.

arxiv情報

著者 Manel Velasco,Isiah Zaplana,Arnau Dória-Cerezo,Pau Martí
発行日 2025-05-08 09:14:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MS, cs.RO, cs.SY, eess.SY, G.4 | Symbolic and User-friendly Geometric Algebra Routines (SUGAR) for Computations in Matlab はコメントを受け付けていません

The City that Never Settles: Simulation-based LiDAR Dataset for Long-Term Place Recognition Under Extreme Structural Changes

要約

大規模な建設と解体は、都市と郊外の環境を劇的に再形成することにより、長期的な場所認識(PR)に大幅に挑戦します。
既存のデータセットは、主に限定または屋内中心の変更を反映しており、広範な屋外変換を適切に表すことができません。
このギャップを埋めるために、CARLAシミュレーターを使用して作成されたシミュレーションベースのデータセットであるデータセット(CNS)データセットを定住させない都市を紹介し、建物の建設と解体 – ダイバーのマップやシーケンスなどの主要な構造変化をキャプチャします。
さらに、元のTCRメトリックの対称バージョンであるTCR_SYMを提案し、ソースターゲットの順序に関係なく構造変化の一貫した測定を可能にします。
定量的比較は、CNSが現在の現実世界のベンチマークよりも広範な変換を網羅することを示しています。
CNSに関する最先端のLIDARベースのPRメソッドの評価は、大幅な環境変化を処理できる堅牢なアルゴリズムの必要性を強調していることを強調しています。
データセットはhttps://github.com/hyunho111/cns_datasetで入手できます。

要約(オリジナル)

Large-scale construction and demolition significantly challenge long-term place recognition (PR) by drastically reshaping urban and suburban environments. Existing datasets predominantly reflect limited or indoor-focused changes, failing to adequately represent extensive outdoor transformations. To bridge this gap, we introduce the City that Never Settles (CNS) dataset, a simulation-based dataset created using the CARLA simulator, capturing major structural changes-such as building construction and demolition-across diverse maps and sequences. Additionally, we propose TCR_sym, a symmetric version of the original TCR metric, enabling consistent measurement of structural changes irrespective of source-target ordering. Quantitative comparisons demonstrate that CNS encompasses more extensive transformations than current real-world benchmarks. Evaluations of state-of-the-art LiDAR-based PR methods on CNS reveal substantial performance degradation, underscoring the need for robust algorithms capable of handling significant environmental changes. Our dataset is available at https://github.com/Hyunho111/CNS_dataset.

arxiv情報

著者 Hyunho Song,Dongjae Lee,Seunghun Oh,Minwoo Jung,Ayoung Kim
発行日 2025-05-08 09:16:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | The City that Never Settles: Simulation-based LiDAR Dataset for Long-Term Place Recognition Under Extreme Structural Changes はコメントを受け付けていません

REHEARSE-3D: A Multi-modal Emulated Rain Dataset for 3D Point Cloud De-raining

要約

センサーの劣化は、自律運転において大きな課題をもたらします。
大雨の間、雨滴からの干渉は、Lidarポイント雲の品質に悪影響を及ぼし、例えば不正確な点測定をもたらします。
これは、自律運転システムが気象を起こさない場合、つまり、そのような変更を識別できない場合、安全性の懸念につながる可能性があります。
この研究では、3Dポイントクラウドのde-rainingでの研究の進歩を促進するために、新しい、大規模なマルチモーダルエミュレートレインデータセット、Rehearse-3dをリリースします。
最も関連性の高い競合他社とは異なり、データセットはいくつかの点でユニークです。
第一に、これは最大のポイントごとの注釈付きデータセットであり、第二に、制御された気象環境で昼間と夜間の両方の条件でログインした4Dレーダーポイントクラウドで濃縮された高解像度のLIDARデータ(LIDAR-256)を持つ唯一のものです。
さらに、リハーサル-3Dには雨特性情報が含まれます。これは、センサーノイズモデリングだけでなく、ポイントレベルでの天候の影響を分析するためにも大きな価値があります。
Rehearse-3Dを活用すると、融合したLidarおよび4Dレーダーポイント雲の雨滴検出と除去をベンチマークします。
当社の包括的な研究では、さまざまな統計モデルと深部学習モデルのパフォーマンスをさらに評価します。
公開されると、データセットモデルとベンチマークモデルは、https://sporsho.github.io/rehearse3dで公開されます。

要約(オリジナル)

Sensor degradation poses a significant challenge in autonomous driving. During heavy rainfall, the interference from raindrops can adversely affect the quality of LiDAR point clouds, resulting in, for instance, inaccurate point measurements. This, in turn, can potentially lead to safety concerns if autonomous driving systems are not weather-aware, i.e., if they are unable to discern such changes. In this study, we release a new, large-scale, multi-modal emulated rain dataset, REHEARSE-3D, to promote research advancements in 3D point cloud de-raining. Distinct from the most relevant competitors, our dataset is unique in several respects. First, it is the largest point-wise annotated dataset, and second, it is the only one with high-resolution LiDAR data (LiDAR-256) enriched with 4D Radar point clouds logged in both daytime and nighttime conditions in a controlled weather environment. Furthermore, REHEARSE-3D involves rain-characteristic information, which is of significant value not only for sensor noise modeling but also for analyzing the impact of weather at a point level. Leveraging REHEARSE-3D, we benchmark raindrop detection and removal in fused LiDAR and 4D Radar point clouds. Our comprehensive study further evaluates the performance of various statistical and deep-learning models. Upon publication, the dataset and benchmark models will be made publicly available at: https://sporsho.github.io/REHEARSE3D.

arxiv情報

著者 Abu Mohammed Raisuddin,Jesper Holmblad,Hamed Haghighi,Yuri Poledna,Maikol Funk Drechsler,Valentina Donzella,Eren Erdal Aksoy
発行日 2025-05-08 09:23:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | REHEARSE-3D: A Multi-modal Emulated Rain Dataset for 3D Point Cloud De-raining はコメントを受け付けていません

Online Velocity Profile Generation and Tracking for Sampling-Based Local Planning Algorithms in Autonomous Racing Environments

要約

この作業は、タイヤ温度の変化やゴムの蓄積からのグリップの変動など、動的な制約の変化に適応する自律的なレースのオンライン速度プランナーを提示します。
このメソッドは、オンライン速度最適化のためのフォワードバックワードソルバーと、3次元トラック表現を利用して、ローカル軌道計画のための新しい空間サンプリング戦略を組み合わせています。
計算された速度プロファイルは、ローカルプランナーの参照として機能し、環境および車両のダイナミクスへの適応性を確保します。
レースシナリオにおけるアプローチの堅牢なパフォーマンスと計算効率を実証し、事前定義されたレースラインからの逸脱と速度プロファイルの高いジャーク特性を含む、その限界を議論します。

要約(オリジナル)

This work presents an online velocity planner for autonomous racing that adapts to changing dynamic constraints, such as grip variations from tire temperature changes and rubber accumulation. The method combines a forward-backward solver for online velocity optimization with a novel spatial sampling strategy for local trajectory planning, utilizing a three-dimensional track representation. The computed velocity profile serves as a reference for the local planner, ensuring adaptability to environmental and vehicle dynamics. We demonstrate the approach’s robust performance and computational efficiency in racing scenarios and discuss its limitations, including sensitivity to deviations from the predefined racing line and high jerk characteristics of the velocity profile.

arxiv情報

著者 Alexander Langmann,Levent Ögretmen,Frederik Werner,Johannes Betz
発行日 2025-05-08 11:53:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Online Velocity Profile Generation and Tracking for Sampling-Based Local Planning Algorithms in Autonomous Racing Environments はコメントを受け付けていません

Don’t Shake the Wheel: Momentum-Aware Planning in End-to-End Autonomous Driving

要約

エンドツーエンドの自律運転フレームワークは、知覚と計画のシームレスな統合を可能にしますが、多くの場合、ワンショットの軌跡予測に依存しているため、単一フレームの知覚における不安定な制御と咬合に対する脆弱性につながる可能性があります。
これに対処するために、運動式運転(MOMAD)フレームワークを提案します。これにより、軌道の勢いと知覚の運動量が導入され、軌跡の予測を安定させ、改良します。
MOMADは2つのコアコンポーネントで構成されています。(1)トポロジー軌道マッチング(TTM)は、Hausdorff距離を使用して、以前のパスと整合する最適な計画クエリを選択して、コヒーレンスを確保するための最適な計画クエリを選択します。
この充実したクエリは、長期の軌跡を再生し、衝突リスクを減らすのに役立ちます。
動的環境と検出エラーから生じるノイズを緩和するために、トレーニング中に堅牢なインスタンス除去を導入し、計画モデルが重要な信号に焦点を合わせ、その堅牢性を向上させることができます。
また、計画の安定性を定量的に評価するために、新しい軌道予測の一貫性(TPC)メトリックを提案します。
Nuscenesデータセットの実験は、MomadがSOTAメソッドと比較して優れた長期一貫性(> = 3S)を達成することを示しています。
さらに、キュレーションされた回転nusceneの評価は、MOMADが衝突率を26%減らし、6S予測期間でTPCを0.97m(33.45%)改善することを示していますが、Bench2Driveのscroboopは成功率の最大16.3%の改善を示しています。

要約(オリジナル)

End-to-end autonomous driving frameworks enable seamless integration of perception and planning but often rely on one-shot trajectory prediction, which may lead to unstable control and vulnerability to occlusions in single-frame perception. To address this, we propose the Momentum-Aware Driving (MomAD) framework, which introduces trajectory momentum and perception momentum to stabilize and refine trajectory predictions. MomAD comprises two core components: (1) Topological Trajectory Matching (TTM) employs Hausdorff Distance to select the optimal planning query that aligns with prior paths to ensure coherence;(2) Momentum Planning Interactor (MPI) cross-attends the selected planning query with historical queries to expand static and dynamic perception files. This enriched query, in turn, helps regenerate long-horizon trajectory and reduce collision risks. To mitigate noise arising from dynamic environments and detection errors, we introduce robust instance denoising during training, enabling the planning model to focus on critical signals and improve its robustness. We also propose a novel Trajectory Prediction Consistency (TPC) metric to quantitatively assess planning stability. Experiments on the nuScenes dataset demonstrate that MomAD achieves superior long-term consistency (>=3s) compared to SOTA methods. Moreover, evaluations on the curated Turning-nuScenes shows that MomAD reduces the collision rate by 26% and improves TPC by 0.97m (33.45%) over a 6s prediction horizon, while closedloop on Bench2Drive demonstrates an up to 16.3% improvement in success rate.

arxiv情報

著者 Ziying Song,Caiyan Jia,Lin Liu,Hongyu Pan,Yongchang Zhang,Junming Wang,Xingyu Zhang,Shaoqing Xu,Lei Yang,Yadan Luo
発行日 2025-05-08 14:00:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Don’t Shake the Wheel: Momentum-Aware Planning in End-to-End Autonomous Driving はコメントを受け付けていません

Localization and path following for an autonomous e-scooter

要約

電気スクーター(e-Scooter)共有システムにおける経済的、生態学的、社会的課題を緩和するために、自律e-Scooterプロトタイプを開発します。
私たちのビジョンは、次の駐車場、ハイデマンドエリア、または充電ステーションへの道を見つけることができる完全に自律的なプロトタイプを設計することです。
この作業では、提供されるパスを備えた都市環境でのローカリゼーションとナビゲーションを有効にするためのソリューションに続くパスを提案します。
e-scooterが以前に開発された反応ホイールメカニズムとのバランスを維持できるようにしながら、問題に続いてローカリゼーションとパスを解決する閉ループアーキテクチャを設計します。
私たちのアプローチは、Raspberry Pi 5で実行可能なままである間、パス幅に準拠した状態と入力の制約を促進します。

要約(オリジナル)

In order to mitigate economical, ecological, and societal challenges in electric scooter (e-scooter) sharing systems, we develop an autonomous e-scooter prototype. Our vision is to design a fully autonomous prototype that can find its way to the next parking spot, high-demand area, or charging station. In this work, we propose a path following solution to enable localization and navigation in an urban environment with a provided path to follow. We design a closed-loop architecture that solves the localization and path following problem while allowing the e-scooter to maintain its balance with a previously developed reaction wheel mechanism. Our approach facilitates state and input constraints, e.g., adhering to the path width, while remaining executable on a Raspberry Pi 5. We demonstrate the efficacy of our approach in a real-world experiment on our prototype.

arxiv情報

著者 David Meister,Robin Strässer,Felix Brändle,Marc Seidel,Benno Bassler,Nathan Gerber,Jan Kautz,Elena Rommel,Frank Allgöwer
発行日 2025-05-08 15:01:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Localization and path following for an autonomous e-scooter はコメントを受け付けていません

A Machine Learning Approach to Sensor Substitution from Tactile Sensing to Visual Perception for Non-Prehensile Manipulation

要約

モバイルマニピュレーターは、複雑な環境でますます展開されており、周囲との相互作用を認識して相互作用させるために多様なセンサーが必要です。
ただし、すべてのロボットに可能なあらゆるセンサーを装備することは、コストと物理的な制約のために非現実的であることがよくあります。
異なるセンサー機能を備えたロボットが同様のタスクをコラボレーションまたは実行する必要がある場合、重大な課題が生じます。
たとえば、高解像度の触覚皮膚を装備したモバイルマニピュレーターが、プッシュなどの非摂食操作タスクに熟練しているシナリオを考えてみましょう。
このロボットをそのような触覚センシングを欠くロボットに交換または拡張する必要がある場合、学習した操作ポリシーは適用できなくなります。
このペーパーでは、非摂食操作におけるセンサー置換の問題に対処します。
限られたセンサーセット(LIDARやRGB-Dなど)を備えたロボットを可能にする新しい機械学習ベースのフレームワークを提案し、以前はより豊富なセンサースイート(触覚スキンなど)に依存していたタスクを効果的に実行できます。
私たちのアプローチは、利用可能なセンサーデータと、置換センサーによって提供される情報との間のマッピングを学び、欠落している感覚入力を効果的に合成します。
具体的には、モバイルマニピュレーターを使用して非摂取性プッシュのタスクに触覚皮膚データを置き換えるモデルをトレーニングすることにより、フレームワークの有効性を実証します。
LidarまたはRGB-Dのみを装備したマニピュレーターは、トレーニング後、直接的な触覚フィードバックを利用してモバイルベースのパフォーマンスを同等にし、時にはさらに良くプッシュすることができることを示します。

要約(オリジナル)

Mobile manipulators are increasingly deployed in complex environments, requiring diverse sensors to perceive and interact with their surroundings. However, equipping every robot with every possible sensor is often impractical due to cost and physical constraints. A critical challenge arises when robots with differing sensor capabilities need to collaborate or perform similar tasks. For example, consider a scenario where a mobile manipulator equipped with high-resolution tactile skin is skilled at non-prehensile manipulation tasks like pushing. If this robot needs to be replaced or augmented by a robot lacking such tactile sensing, the learned manipulation policies become inapplicable. This paper addresses the problem of sensor substitution in non-prehensile manipulation. We propose a novel machine learning-based framework that enables a robot with a limited sensor set (e.g., LiDAR or RGB-D) to effectively perform tasks previously reliant on a richer sensor suite (e.g., tactile skin). Our approach learns a mapping between the available sensor data and the information provided by the substituted sensor, effectively synthesizing the missing sensory input. Specifically, we demonstrate the efficacy of our framework by training a model to substitute tactile skin data for the task of non-prehensile pushing using a mobile manipulator. We show that a manipulator equipped only with LiDAR or RGB-D can, after training, achieve comparable and sometimes even better pushing performance to a mobile base utilizing direct tactile feedback.

arxiv情報

著者 Idil Ozdamar,Doganay Sirintuna,Arash Ajoudani
発行日 2025-05-08 15:01:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Machine Learning Approach to Sensor Substitution from Tactile Sensing to Visual Perception for Non-Prehensile Manipulation はコメントを受け付けていません

CottonSim: Development of an autonomous visual-guided robotic cotton-picking system in the Gazebo

要約

この研究では、ClearPathのハスキーロボットプラットフォームと綿目の知覚システムに基づいて構築された自律視覚誘導ロボットの綿ピッキングシステムが、ガゼボロボットシミュレーターで開発されました。
さらに、自律型フィールドナビゲーションをシミュレートするために、ロボットコットンピッカーをガゼボ環境に展開するためのロボットオペレーティングシステム(ROS 1)パッケージとして設計および開発されました。
ナビゲーションはMAP座標とRGB深いカメラによって支援され、ROSナビゲーションアルゴリズムは、たとえばセグメンテーションのために訓練されたYolov8n-SEGモデルを利用しました。
このモデルは、85.2%の望ましい平均平均精度(MAP)、88.9%のリコール、およびシーンセグメンテーションで93.0%の精度を達成しました。
開発されたROSナビゲーションパッケージにより、ロボットの綿ピッキングシステムは、深い学習ベースの知覚システムによって視覚的に支援された、MAPベースおよびGPSベースのアプローチを使用して、コットンフィールドを自律的にナビゲートすることができました。
GPSベースのナビゲーションアプローチでは、しきい値が5 x 10^-6度の100%完了率(CR)を達成しましたが、マップベースのナビゲーションアプローチでは、しきい値が0.25 mの96.7%CRに達しました。
この研究では、綿花農業およびそれ以降の将来の農業ロボット工学と自動運転車のシミュレーションの基本的なベースラインを確立しています。
cottonsimコードとデータは、github:https://github.com/imtheva/cottonsim経由で研究コミュニティにリリースされます

要約(オリジナル)

In this study, an autonomous visual-guided robotic cotton-picking system, built on a Clearpath’s Husky robot platform and the Cotton-Eye perception system, was developed in the Gazebo robotic simulator. Furthermore, a virtual cotton farm was designed and developed as a Robot Operating System (ROS 1) package to deploy the robotic cotton picker in the Gazebo environment for simulating autonomous field navigation. The navigation was assisted by the map coordinates and an RGB-depth camera, while the ROS navigation algorithm utilized a trained YOLOv8n-seg model for instance segmentation. The model achieved a desired mean Average Precision (mAP) of 85.2%, a recall of 88.9%, and a precision of 93.0% for scene segmentation. The developed ROS navigation packages enabled our robotic cotton-picking system to autonomously navigate through the cotton field using map-based and GPS-based approaches, visually aided by a deep learning-based perception system. The GPS-based navigation approach achieved a 100% completion rate (CR) with a threshold of 5 x 10^-6 degrees, while the map-based navigation approach attained a 96.7% CR with a threshold of 0.25 m. This study establishes a fundamental baseline of simulation for future agricultural robotics and autonomous vehicles in cotton farming and beyond. CottonSim code and data are released to the research community via GitHub: https://github.com/imtheva/CottonSim

arxiv情報

著者 Thevathayarajh Thayananthan,Xin Zhang,Yanbo Huang,Jingdao Chen,Nuwan K. Wijewardane,Vitor S. Martins,Gary D. Chesser,Christopher T. Goodin
発行日 2025-05-08 15:02:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CottonSim: Development of an autonomous visual-guided robotic cotton-picking system in the Gazebo はコメントを受け付けていません

DSDrive: Distilling Large Language Model for Lightweight End-to-End Autonomous Driving with Unified Reasoning and Planning

要約

自動運転車の推論と計画を統一されたフレームワークに統合するために調整された合理化されたエンドツーエンドのパラダイムであるDSDRIVEを提示します。
DSDRIVEは、蒸留方法を使用して、より大きなサイズのビジョン言語モデル(VLM)の強化された推論能力を維持するコンパクトLLMを活用します。
推論と計画のタスクを効果的に調整するために、データセット構造、最適化目標、および学習プロセスを同期するウェイポイント駆動型のデュアルヘッド調整モジュールがさらに開発されます。
これらのタスクを統一されたフレームワークに統合することにより、DSDRIVEは計画結果に固定され、詳細な推論洞察を組み込み、エンドツーエンドパイプラインの解釈可能性と信頼性を高めます。
DSDRIVEは、閉ループシミュレーションで徹底的にテストされており、ベンチマークモデルと同等に実行され、多くの重要なメトリックでさらにはパフォーマンスを発揮しますが、すべてサイズがコンパクトです。
さらに、DSDRIVEの計算効率(推論中の時間とメモリの要件に反映されているように)は大幅に強化されています。
このように、この作業は有望な側面をもたらし、ADに解釈可能で効率的なソリューションを提供する軽量システムの可能性を強調しています。

要約(オリジナル)

We present DSDrive, a streamlined end-to-end paradigm tailored for integrating the reasoning and planning of autonomous vehicles into a unified framework. DSDrive leverages a compact LLM that employs a distillation method to preserve the enhanced reasoning capabilities of a larger-sized vision language model (VLM). To effectively align the reasoning and planning tasks, a waypoint-driven dual-head coordination module is further developed, which synchronizes dataset structures, optimization objectives, and the learning process. By integrating these tasks into a unified framework, DSDrive anchors on the planning results while incorporating detailed reasoning insights, thereby enhancing the interpretability and reliability of the end-to-end pipeline. DSDrive has been thoroughly tested in closed-loop simulations, where it performs on par with benchmark models and even outperforms in many key metrics, all while being more compact in size. Additionally, the computational efficiency of DSDrive (as reflected in its time and memory requirements during inference) has been significantly enhanced. Evidently thus, this work brings promising aspects and underscores the potential of lightweight systems in delivering interpretable and efficient solutions for AD.

arxiv情報

著者 Wenru Liu,Pei Liu,Jun Ma
発行日 2025-05-08 15:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DSDrive: Distilling Large Language Model for Lightweight End-to-End Autonomous Driving with Unified Reasoning and Planning はコメントを受け付けていません