Scoop-and-Toss: Dynamic Object Collection for Quadrupedal Systems

要約

四足ロボットは、制御された環境から現実世界のアプリケーションに能力を拡張し、運動に大きな進歩を遂げました。
動きを超えて、最近の作業では、脚を使用して、ボタンを押すなどのタスクを実行するために脚を使用して操作を検討しました。
これらの努力は脚ベースの操作の実現可能性を示していますが、ほとんどは比較的静的なタスクに焦点を当てています。
この作業では、四足動物が足の俊敏性を活用することにより、追加のアクチュエーターなしでオブジェクトを収集できるようにするフレームワークを提案します。
片足にシンプルなスクープのようなアドオンを取り付けることにより、ロボットはオブジェクトをスクープして、背面に取り付けられたコレクショントレイに投げることができます。
私たちの方法は、2つの専門家ポリシーで構成される階層的なポリシー構造を採用しています。1つはすくいと投げて、1つはオブジェクトの位置に近づくために、そしてそれらを動的に切り替えるメタポリティです。
専門家のポリシーは別々にトレーニングされ、その後、調整されたマルチオブジェクトコレクションのメタポリシートレーニングが行われます。
このアプローチは、動的なオブジェクトの操作に四足動物の脚をどのように効果的に利用できるかを示しており、運動を超えて役割を拡大します。

要約(オリジナル)

Quadruped robots have made significant advances in locomotion, extending their capabilities from controlled environments to real-world applications. Beyond movement, recent work has explored loco-manipulation using the legs to perform tasks such as pressing buttons or opening doors. While these efforts demonstrate the feasibility of leg-based manipulation, most have focused on relatively static tasks. In this work, we propose a framework that enables quadruped robots to collect objects without additional actuators by leveraging the agility of their legs. By attaching a simple scoop-like add-on to one leg, the robot can scoop objects and toss them into a collection tray mounted on its back. Our method employs a hierarchical policy structure comprising two expert policies-one for scooping and tossing, and one for approaching object positions-and a meta-policy that dynamically switches between them. The expert policies are trained separately, followed by meta-policy training for coordinated multi-object collection. This approach demonstrates how quadruped legs can be effectively utilized for dynamic object manipulation, expanding their role beyond locomotion.

arxiv情報

著者 Minji Kang,Chanwoo Baek,Yoonsang Lee
発行日 2025-06-11 05:28:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Scoop-and-Toss: Dynamic Object Collection for Quadrupedal Systems はコメントを受け付けていません

Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations

要約

近隣のエージェント間の空間的相互作用のモデリングは、モーション予測やクラウドナビゲーションなどのマルチエージェントの問題の中心にあります。
顕著な進歩にもかかわらず、現代の表現がエージェントの相互作用の背後にある因果関係をどの程度捉えることができるかは不明のままです。
この作業では、計算形式から現実世界の実践まで、これらの表現の因果的認識を詳細に見ていきます。
まず、最近の因果関係者のベンチマークで研究された非因果性の堅牢性の概念に疑問を投げかけました。
最近の表現は、非因果薬の摂動に対してすでに部分的に回復力があるが、メディエーターエージェントを含む間接的な因果効果のモデリングは依然として困難であることを示しています。
この課題に対処するために、因果注釈で潜在的な表現を正規化するメトリック学習アプローチを導入します。
私たちの制御された実験は、このアプローチがより高い程度の因果的認識につながるだけでなく、分散型の堅牢性が強くなることを示しています。
実際にそれをさらに運用するために、クロスドメインマルチタスク学習を介してSIMからリアルへの因果転移方法を提案します。
歩行者のデータセットでの実験は、実際の因果注釈がない場合でも、この方法が一般化を大幅に高めることができることを示しています。
私たちの仕事が、マルチエージェント相互作用の因果的に認識される表現に向けた課題と経路に関する新しい視点を提供することを願っています。
私たちのコードは、https://github.com/vita-epfl/causalsim2realで入手できます。

要約(オリジナル)

Modeling spatial-temporal interactions among neighboring agents is at the heart of multi-agent problems such as motion forecasting and crowd navigation. Despite notable progress, it remains unclear to which extent modern representations can capture the causal relationships behind agent interactions. In this work, we take an in-depth look at the causal awareness of these representations, from computational formalism to real-world practice. First, we cast doubt on the notion of non-causal robustness studied in the recent CausalAgents benchmark. We show that recent representations are already partially resilient to perturbations of non-causal agents, and yet modeling indirect causal effects involving mediator agents remains challenging. To address this challenge, we introduce a metric learning approach that regularizes latent representations with causal annotations. Our controlled experiments show that this approach not only leads to higher degrees of causal awareness but also yields stronger out-of-distribution robustness. To further operationalize it in practice, we propose a sim-to-real causal transfer method via cross-domain multi-task learning. Experiments on pedestrian datasets show that our method can substantially boost generalization, even in the absence of real-world causal annotations. We hope our work provides a new perspective on the challenges and pathways towards causally-aware representations of multi-agent interactions. Our code is available at https://github.com/vita-epfl/CausalSim2Real.

arxiv情報

著者 Ahmad Rahimi,Po-Chien Luan,Yuejiang Liu,Frano Rajič,Alexandre Alahi
発行日 2025-06-11 05:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO | Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations はコメントを受け付けていません

Time-Unified Diffusion Policy with Action Discrimination for Robotic Manipulation

要約

多くの複雑なシナリオでは、ロボット操作は、複数の成功したアクションの分布を推定するために生成モデルに依存しています。
拡散モデルは他の生成モデルよりもトレーニングの堅牢性が優れているため、ロボットデモンストレーションを成功させることで模倣学習でうまく機能します。
ただし、拡散ベースのポリシーメソッドは通常、ロボット操作のリアルタイム応答を妨げるために、繰り返し除去ロボットアクションにかなりの時間を必要とします。
さらに、既存の拡散ポリシーは、時間変化のアクション除去プロセスをモデル化し、その時間的複雑さによりモデルトレーニングの難しさを高め、最適ではないアクション精度につながります。
ロボットアクションを効率的かつ正確に生成するために、アクション認識能力を利用して時間を維持した除去プロセスを構築する時間張りの拡散ポリシー(TUDP)を提示します。
一方では、追加のアクション差別情報を使用して、アクションスペースに時間を識別する速度フィールドを構築します。
アクションのすべてのタイムステップを統合することにより、速度フィールドはポリシー学習の難しさを減らし、アクション生成をスピードアップします。
一方、アクションごとのトレーニング方法を提案し、追加のアクション差別情報を提供するためのアクション差別分野を導入します。
アクションごとのトレーニングを通じて、TUDPは成功したアクションを識別して精度を改善する能力を暗黙的に学習します。
私たちの方法は、RLBenchで最先端のパフォーマンスを達成し、マルチビューセットアップで82.6%、シングルビューセットアップで83.8%の成功率が82.6%です。
特に、除去反復を使用する場合、TUDPは成功率をより大幅に改善します。
さらに、TUDPは、幅広い現実世界のタスクに対して正確なアクションを生成できます。

要約(オリジナル)

In many complex scenarios, robotic manipulation relies on generative models to estimate the distribution of multiple successful actions. As the diffusion model has better training robustness than other generative models, it performs well in imitation learning through successful robot demonstrations. However, the diffusion-based policy methods typically require significant time to iteratively denoise robot actions, which hinders real-time responses in robotic manipulation. Moreover, existing diffusion policies model a time-varying action denoising process, whose temporal complexity increases the difficulty of model training and leads to suboptimal action accuracy. To generate robot actions efficiently and accurately, we present the Time-Unified Diffusion Policy (TUDP), which utilizes action recognition capabilities to build a time-unified denoising process. On the one hand, we build a time-unified velocity field in action space with additional action discrimination information. By unifying all timesteps of action denoising, our velocity field reduces the difficulty of policy learning and speeds up action generation. On the other hand, we propose an action-wise training method, which introduces an action discrimination branch to supply additional action discrimination information. Through action-wise training, the TUDP implicitly learns the ability to discern successful actions to better denoising accuracy. Our method achieves state-of-the-art performance on RLBench with the highest success rate of 82.6% on a multi-view setup and 83.8% on a single-view setup. In particular, when using fewer denoising iterations, TUDP achieves a more significant improvement in success rate. Additionally, TUDP can produce accurate actions for a wide range of real-world tasks.

arxiv情報

著者 Ye Niu,Sanping Zhou,Yizhe Li,Ye Den,Le Wang
発行日 2025-06-11 06:11:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Time-Unified Diffusion Policy with Action Discrimination for Robotic Manipulation はコメントを受け付けていません

RMP-YOLO: A Robust Motion Predictor for Partially Observable Scenarios even if You Only Look Once

要約

RMP-Yoloは、不完全な入力データを使用しても堅牢なモーション予測を提供するように設計された統一されたフレームワークです。
私たちの重要な洞察は、完全で信頼できる歴史的軌跡データが正確なモーション予測を確保する上で極めて重要な役割を果たすという観察に由来しています。
したがって、予測モジュールに供給する前に、無傷の歴史的軌跡の再構築を優先する新しいパラダイムを提案します。
私たちのアプローチでは、空間的および時間的特徴の抽出と融合を強化するための新しいシーントークン化モジュールを紹介します。
これに続いて、提案された回復モジュールは、ローカルマップトポロジと近くのエージェントとの相互作用を活用することにより、エージェントの不完全な歴史的軌跡を再構築します。
再構築されたクリーンな履歴データは、下流の予測モジュールに統合されます。
私たちのフレームワークは、さまざまな長さの欠落データを効果的に処理することができ、高い予測の精度を維持しながら、観測ノイズに対して堅牢なままです。
さらに、リカバリモジュールは既存の予測モデルと互換性があり、シームレスな統合が確保されます。
広範な実験では、アプローチの有効性を検証し、実際の自律車両での展開がその実用性を確認します。
2024年のWaymo Motion Prediction Competitionである私たちの方法であるRMP-Yoloは、最先端のパフォーマンスを達成し、3位を獲得しています。

要約(オリジナル)

We introduce RMP-YOLO, a unified framework designed to provide robust motion predictions even with incomplete input data. Our key insight stems from the observation that complete and reliable historical trajectory data plays a pivotal role in ensuring accurate motion prediction. Therefore, we propose a new paradigm that prioritizes the reconstruction of intact historical trajectories before feeding them into the prediction modules. Our approach introduces a novel scene tokenization module to enhance the extraction and fusion of spatial and temporal features. Following this, our proposed recovery module reconstructs agents’ incomplete historical trajectories by leveraging local map topology and interactions with nearby agents. The reconstructed, clean historical data is then integrated into the downstream prediction modules. Our framework is able to effectively handle missing data of varying lengths and remains robust against observation noise, while maintaining high prediction accuracy. Furthermore, our recovery module is compatible with existing prediction models, ensuring seamless integration. Extensive experiments validate the effectiveness of our approach, and deployment in real-world autonomous vehicles confirms its practical utility. In the 2024 Waymo Motion Prediction Competition, our method, RMP-YOLO, achieves state-of-the-art performance, securing third place.

arxiv情報

著者 Jiawei Sun,Jiahui Li,Tingchen Liu,Chengran Yuan,Shuo Sun,Zefan Huang,Anthony Wong,Keng Peng Tee,Marcelo H. Ang Jr
発行日 2025-06-11 06:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RMP-YOLO: A Robust Motion Predictor for Partially Observable Scenarios even if You Only Look Once はコメントを受け付けていません

Design of an innovative robotic surgical instrument for circular stapling

要約

食道癌は、生存率が低いという非常に攻撃的な悪性腫瘍のままであり、食道摘出術のような進行した外科的介入が必要です。
円形のステープラーを含む従来の手動技術は、限られた精度、長期の回復時間、漏れや組織の不整合などの合併症などの課題に直面しています。
このペーパーでは、限られたスペースの器用さを強化し、組織の整列を改善し、術後のリスクを減らすように設計された新しいロボット円形のステープラーを紹介します。
外科医のアシスタントとして機能する認知ロボットと統合された外科用ステープラーは、3つのアクチュエーターを使用して、カッター/ステープラーの動きを実行し、カートリッジ(遠位先端)の75度の曲げを可能にします。
キネマティック分析は、ステープラーチップの位置を計算するために使用され、ロボットシステムとの同期を確保します。

要約(オリジナル)

Esophageal cancer remains a highly aggressive malignancy with low survival rates, requiring advanced surgical interventions like esophagectomy. Traditional manual techniques, including circular staplers, face challenges such as limited precision, prolonged recovery times, and complications like leaks and tissue misalignment. This paper presents a novel robotic circular stapler designed to enhance the dexterity in confined spaces, improve tissue alignment, and reduce post-operative risks. Integrated with a cognitive robot that serves as a surgeon’s assistant, the surgical stapler uses three actuators to perform anvil motion, cutter/stapler motion and allows a 75-degree bending of the cartridge (distal tip). Kinematic analysis is used to compute the stapler tip’s position, ensuring synchronization with a robotic system.

arxiv情報

著者 Paul Tucan,Nadim Al Hajjar,Calin Vaida,Alexandru Pusca,Tiberiu Antal,Corina Radu,Daniel Jucan,Adrian Pisla,Damien Chablat,Doina Pisla
発行日 2025-06-11 06:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Design of an innovative robotic surgical instrument for circular stapling はコメントを受け付けていません

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

要約

継続的なロボット制御のためにフローマッチングポリシーのファミリーを微調整するシンプルでありながら効果的なオンライン強化学習(RL)フレームワークであるReinflowを提案します。
厳密なRL理論から導き出されたラインフローは、学習可能なノイズをフローポリシーの決定論的パスに注入し、正確かつ単純な尤度計算のために、流れを離散時間マルコフプロセスに変換します。
この変換により、探索が促進され、トレーニングの安定性が保証され、ラインフローが整流フロー[35]やショートカットモデル[19]を含む多様なフローモデルバリアントを微調整できるようにします。
視覚的な入力とまばらな報酬を備えた長老の計画を含む、代表的な移動および操作タスクのリネフローをベンチマークします。
修正フローポリシーのエピソード報酬は、最先端の拡散RL微調整法dppoと比較して、除去ステップと壁の時間の82.63%を節約しながら、格子運動の挑戦で微調整した後、135.36%の平均正味成長を獲得しました[43]。
状態および視覚操作タスクのショートカットモデルポリシーの成功率は、4つまたは1つの除去ステップでラインフローで微調整した後、平均純増加を達成しました。
プロジェクトWebページ:https://reinflow.github.io/

要約(オリジナル)

We propose ReinFlow, a simple yet effective online reinforcement learning (RL) framework that fine-tunes a family of flow matching policies for continuous robotic control. Derived from rigorous RL theory, ReinFlow injects learnable noise into a flow policy’s deterministic path, converting the flow into a discrete-time Markov Process for exact and straightforward likelihood computation. This conversion facilitates exploration and ensures training stability, enabling ReinFlow to fine-tune diverse flow model variants, including Rectified Flow [35] and Shortcut Models [19], particularly at very few or even one denoising step. We benchmark ReinFlow in representative locomotion and manipulation tasks, including long-horizon planning with visual input and sparse reward. The episode reward of Rectified Flow policies obtained an average net growth of 135.36% after fine-tuning in challenging legged locomotion tasks while saving denoising steps and 82.63% of wall time compared to state-of-the-art diffusion RL fine-tuning method DPPO [43]. The success rate of the Shortcut Model policies in state and visual manipulation tasks achieved an average net increase of 40.34% after fine-tuning with ReinFlow at four or even one denoising step, whose performance is comparable to fine-tuned DDIM policies while saving computation time for an average of 23.20%. Project webpage: https://reinflow.github.io/

arxiv情報

著者 Tonghe Zhang,Chao Yu,Sichang Su,Yu Wang
発行日 2025-06-11 07:12:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning はコメントを受け付けていません

Adv-BMT: Bidirectional Motion Transformer for Safety-Critical Traffic Scenario Generation

要約

シナリオベースのテストは、自律運転(AD)システムのパフォーマンスを検証するために不可欠です。
ただし、このようなテストは、現実世界で収集された既存のデータセットにおける長期尾のある安全性が批判的なシナリオの希少性によって制限されています。
データの問題に取り組むために、ADV-BMTフレームワークを提案します。これは、多様で現実的な敵対的な相互作用で実際のシナリオを強化します。
ADV-BMTのコアコンポーネントは、逆方向のモーショントランス(BMT)モデルであり、インバーストラフィックモーション予測を実行します。これにより、シナリオの最後のタイムステップで入力としてエージェント情報を取得し、最初のタイムステップまで時系列の逆のトラフィックを再構築します。
ADV-BMTフレームワークは2段階のパイプラインです。最初に敵対的な初期化を実施し、次に逆運動予測を実施します。
以前の作業とは異なり、事前トレーニングに衝突データは必要ありません。また、現実的で多様な衝突相互作用を生成することができます。
実験結果は、ADV-BMTによる生成された衝突シナリオの品質を検証します。増強されたデータセットでのトレーニングは、以前の作業と比較してエピソードの衝突率を20 \%減少させます。

要約(オリジナル)

Scenario-based testing is essential for validating the performance of autonomous driving (AD) systems. However, such testing is limited by the scarcity of long-tailed, safety-critical scenarios in existing datasets collected in the real world. To tackle the data issue, we propose the Adv-BMT framework, which augments real-world scenarios with diverse and realistic adversarial interactions. The core component of Adv-BMT is a bidirectional motion transformer (BMT) model to perform inverse traffic motion predictions, which takes agent information in the last time step of the scenario as input, and reconstruct the traffic in the inverse of chronological order until the initial time step. The Adv-BMT framework is a two-staged pipeline: it first conducts adversarial initializations and then inverse motion predictions. Different from previous work, we do not need any collision data for pretraining, and are able to generate realistic and diverse collision interactions. Our experimental results validate the quality of generated collision scenarios by Adv-BMT: training in our augmented dataset would reduce episode collision rates by 20\% compared to previous work.

arxiv情報

著者 Yuxin Liu,Zhenghao Peng,Xuanhao Cui,Bolei Zhou
発行日 2025-06-11 07:54:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GR, cs.RO | Adv-BMT: Bidirectional Motion Transformer for Safety-Critical Traffic Scenario Generation はコメントを受け付けていません

DCIRNet: Depth Completion with Iterative Refinement for Dexterous Grasping of Transparent and Reflective Objects

要約

日常の環境での透明で反射的なオブジェクトは、鏡面反射や光伝達などの独自の視覚特性により、深さセンサーに大きな課題をもたらします。
これらの特性は、しばしば不完全または不正確な深度推定につながります。これは、オブジェクト認識、シーンの再構築、ロボット操作など、下流の幾何学ベースのビジョンタスクに深刻な影響を与えます。
透明性および反射オブジェクトの深度情報の欠落の問題に対処するために、RGB画像と深さマップを効果的に統合して深度推定品質を高める新しいマルチモーダル深度完了ネットワークであるDCIRNETを提案します。
このアプローチには、RGB画像と不完全な深度マップ間で補完的な情報を抽出するように設計された革新的なマルチモーダル機能融合モジュールが組み込まれています。
さらに、深さの完了を徐々に改善し、ぼやけたオブジェクトの境界の問題を効果的に軽減するマルチステージの監督と深度改良戦略を導入します。
深さ完了モデルを器用なグラッシングフレームワークに統合し、透明で反射的なオブジェクトの把握成功率の44ドルの改善を達成します。
DCIRNETが優れたパフォーマンスを示しているパブリックデータセットで広範な実験を実施します。
実験結果は、アプローチの有効性を検証し、さまざまな透明で反射的なオブジェクトにわたってその強力な一般化能力を確認します。

要約(オリジナル)

Transparent and reflective objects in everyday environments pose significant challenges for depth sensors due to their unique visual properties, such as specular reflections and light transmission. These characteristics often lead to incomplete or inaccurate depth estimation, which severely impacts downstream geometry-based vision tasks, including object recognition, scene reconstruction, and robotic manipulation. To address the issue of missing depth information in transparent and reflective objects, we propose DCIRNet, a novel multimodal depth completion network that effectively integrates RGB images and depth maps to enhance depth estimation quality. Our approach incorporates an innovative multimodal feature fusion module designed to extract complementary information between RGB images and incomplete depth maps. Furthermore, we introduce a multi-stage supervision and depth refinement strategy that progressively improves depth completion and effectively mitigates the issue of blurred object boundaries. We integrate our depth completion model into dexterous grasping frameworks and achieve a $44\%$ improvement in the grasp success rate for transparent and reflective objects. We conduct extensive experiments on public datasets, where DCIRNet demonstrates superior performance. The experimental results validate the effectiveness of our approach and confirm its strong generalization capability across various transparent and reflective objects.

arxiv情報

著者 Guanghu Xie,Zhiduo Jiang,Yonglong Zhang,Yang Liu,Zongwu Xie,Baoshi Cao,Hong Liu
発行日 2025-06-11 08:04:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DCIRNet: Depth Completion with Iterative Refinement for Dexterous Grasping of Transparent and Reflective Objects はコメントを受け付けていません

Advances on Affordable Hardware Platforms for Human Demonstration Acquisition in Agricultural Applications

要約

このホワイトペーパーでは、農業環境で見つかった複雑な内部シナリオのために、ロボット学習(LFD)のための低コストのハンドヘルドグリッパーであるUniversal Manipulation Interface(UMI)の進歩を紹介します。
焦点は、最小限のセットアップで適切なサンプルの取得を改善することにあります。
まず、アイドル時間とユーザーの認知負荷は、タスクイベントを考慮した継続的なデモから個々のサンプルを抽出することにより減少します。
第二に、タスクサンプルの軌跡の生成に対する信頼性は、拡張カルマンフィルタリング(EKF)を使用して、ボード上の慣性測定と外部視覚マーカーのローカリゼーション使用量を介して増加します。
結果は、果物の収穫タスクについて提示され、デフォルトのパイプラインを上回ります。

要約(オリジナル)

This paper presents advances on the Universal Manipulation Interface (UMI), a low-cost hand-held gripper for robot Learning from Demonstration (LfD), for complex in-the-wild scenarios found in agricultural settings. The focus is on improving the acquisition of suitable samples with minimal additional setup. Firstly, idle times and user’s cognitive load are reduced through the extraction of individual samples from a continuous demonstration considering task events. Secondly, reliability on the generation of task sample’s trajectories is increased through the combination on-board inertial measurements and external visual marker localization usage using Extended Kalman Filtering (EKF). Results are presented for a fruit harvesting task, outperforming the default pipeline.

arxiv情報

著者 Alberto San-Miguel-Tello,Gennaro Scarati,Alejandro Hernández,Mario Cavero-Vidal,Aakash Maroti,Néstor García
発行日 2025-06-11 08:12:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Advances on Affordable Hardware Platforms for Human Demonstration Acquisition in Agricultural Applications はコメントを受け付けていません

FROG: A new people detection dataset for knee-high 2D range finders

要約

モバイルロボットには、環境、特にその近くにある人間の知識が必要です。
人間を検出するための最も一般的なアプローチにはコンピュータービジョンが含まれますが、人を検出するためのロボットのしばしば見落とされがちなハードウェア機能は、2Dレンジファインダーです。
これらはもともと、障害物の回避とマッピング/スラムタスクを目的としていました。
ほとんどのロボットでは、足首と膝の間の高さに便利に配置されているため、人を検出するためにも使用でき、カメラと比較してより大きな視野と深さ解像度で使用できます。
このホワイトペーパーでは、Frogと呼ばれる膝ハイ2Dレンジファインダーを使用して、人を検出するための新しいデータセットを紹介します。
このデータセットには、ドラウなどの既存のデータセットと比較して、レーザー解像度、スキャン周波数、およびより完全な注釈データがあります。
特に、カエルデータセットには、レーザースキャンの100%の注釈が含まれています(5%の注釈のみのドラウとは異なります)、17倍の注釈付きスキャン、100倍多くの人々の注釈、およびロボットが移動する距離の2倍にわたって。
カエルデータセットに基づいてベンチマークを提案し、2Dレンジファインダーデータに基づいて最先端の人々検出器のコレクションを分析します。
また、人を検出するための新しいエンドツーエンドのディープラーニングアプローチを提案および評価します。
当社のソリューションは、生センサーデータを直接直接(手作りした入力データ機能を必要としない)ため、CPUの前処理を回避し、特定のドメインヒューリスティックを理解する開発者をリリースします。
実験結果は、提案された人々検出器が最先端に匹敵する結果をどのように達成するかを示し、ROSの最適化された実装は500 Hz以上で動作することができます。

要約(オリジナル)

Mobile robots require knowledge of the environment, especially of humans located in its vicinity. While the most common approaches for detecting humans involve computer vision, an often overlooked hardware feature of robots for people detection are their 2D range finders. These were originally intended for obstacle avoidance and mapping/SLAM tasks. In most robots, they are conveniently located at a height approximately between the ankle and the knee, so they can be used for detecting people too, and with a larger field of view and depth resolution compared to cameras. In this paper, we present a new dataset for people detection using knee-high 2D range finders called FROG. This dataset has greater laser resolution, scanning frequency, and more complete annotation data compared to existing datasets such as DROW. Particularly, the FROG dataset contains annotations for 100% of its laser scans (unlike DROW which only annotates 5%), 17x more annotated scans, 100x more people annotations, and over twice the distance traveled by the robot. We propose a benchmark based on the FROG dataset, and analyze a collection of state-of-the-art people detectors based on 2D range finder data. We also propose and evaluate a new end-to-end deep learning approach for people detection. Our solution works with the raw sensor data directly (not needing hand-crafted input data features), thus avoiding CPU preprocessing and releasing the developer of understanding specific domain heuristics. Experimental results show how the proposed people detector attains results comparable to the state of the art, while an optimized implementation for ROS can operate at more than 500 Hz.

arxiv情報

著者 Fernando Amodeo,Noé Pérez-Higueras,Luis Merino,Fernando Caballero
発行日 2025-06-11 08:14:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FROG: A new people detection dataset for knee-high 2D range finders はコメントを受け付けていません