RAMPA: Robotic Augmented Reality for Machine Programming by DemonstrAtion

要約

このペーパーでは、最初のML統合されたXR駆動型のエンドツーエンドロボットシステムであるデモンストレーションによるマシンプログラミング(RAMPA)のロボット拡張現実を紹介します。
最先端および市販のARヘッドセット、たとえばメタクエスト3は、デモンストレーション(PBD)アプローチによるプログラミングの適用を容易にします。
産業用ロボットアーム、例えば、ユニバーサルロボットUR10。
当社のアプローチにより、ユーザーの物理的環境内でスキルデモンストレーションを直接登録、視覚化、および微調整することができます。
Rampaは、安全性の懸念、プログラミングの障壁、実際のハードウェアでデモンストレーションを収集することの非効率性など、PBDの重要な課題に対処しています。
私たちのシステムのパフォーマンスは、3つの異なるロボット操作タスクを指導する際の運動感覚制御の従来の方法に対して評価され、定量的メトリックで分析され、タスクのパフォーマンスと完了時間、軌跡の滑らかさ、システムの使いやすさ、ユーザーエクスペリエンス、および標準化された調査を使用してタスク負荷を測定します。
私たちの調査結果は、ロボットのタスクがどのように教えられ、洗練されているかについての実質的な進歩を示しており、ロボットプログラミングにおける運用の安全性、効率、およびユーザーエンゲージメントの改善が有望です。

要約(オリジナル)

This paper introduces Robotic Augmented Reality for Machine Programming by Demonstration (RAMPA), the first ML-integrated, XR-driven end-to-end robotic system, allowing training and deployment of ML models such as ProMPs on the fly, and utilizing the capabilities of state-of-the-art and commercially available AR headsets, e.g., Meta Quest 3, to facilitate the application of Programming by Demonstration (PbD) approaches on industrial robotic arms, e.g., Universal Robots UR10. Our approach enables in-situ data recording, visualization, and fine-tuning of skill demonstrations directly within the user’s physical environment. RAMPA addresses critical challenges of PbD, such as safety concerns, programming barriers, and the inefficiency of collecting demonstrations on the actual hardware. The performance of our system is evaluated against the traditional method of kinesthetic control in teaching three different robotic manipulation tasks and analyzed with quantitative metrics, measuring task performance and completion time, trajectory smoothness, system usability, user experience, and task load using standardized surveys. Our findings indicate a substantial advancement in how robotic tasks are taught and refined, promising improvements in operational safety, efficiency, and user engagement in robotic programming.

arxiv情報

著者 Fatih Dogangun,Serdar Bahar,Yigit Yildirim,Bora Toprak Temir,Emre Ugur,Mustafa Doga Dogan
発行日 2025-02-18 19:11:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO | コメントする

PCB Renewal: Iterative Reuse of PCB Substrates for Sustainable Electronic Making

要約

PCB(プリント回路基板)基板はしばしば片戸であり、電子作品の材料廃棄物につながります。
PCB更新は、導電性エポキシを時代遅れの領域に選択的に堆積させ、新しいトレースをサポートする導電性平面に分離されたパスを変換することにより、PCBトレースを「消去」および「再構成」する新しいテクニックを導入します。
PCB更新ワークフローを提示し、その電気性能と機械的耐久性を評価し、材料の使用、コスト、エネルギー消費、時間の節約など、持続可能性への影響をモデル化します。
エポキシ堆積をガイドし、更新されたPCBプロファイルを生成し、リソースの使用を計算するソフトウェアプラグインを開発します。
PCB更新の有効性と汎用性を示すために、カメラローラー、WiFiラジオ、ESPBoyゲームコンソールの3つのプロジェクトにまたがる4つの設計反復にわたって単一のPCBを再利用します。
また、アウトソーシングされた二重層のPCBを再構成する方法も示し、LEDウォッチからインタラクティブな猫のおもちゃに変換します。
この論文は、制限と将来の方向で終わります。

要約(オリジナル)

PCB (printed circuit board) substrates are often single-use, leading to material waste in electronics making. We introduce PCB Renewal, a novel technique that ‘erases’ and ‘reconfigures’ PCB traces by selectively depositing conductive epoxy onto outdated areas, transforming isolated paths into conductive planes that support new traces. We present the PCB Renewal workflow, evaluate its electrical performance and mechanical durability, and model its sustainability impact, including material usage, cost, energy consumption, and time savings. We develop a software plug-in that guides epoxy deposition, generates updated PCB profiles, and calculates resource usage. To demonstrate PCB Renewal’s effectiveness and versatility, we repurpose a single PCB across four design iterations spanning three projects: a camera roller, a WiFi radio, and an ESPboy game console. We also show how an outsourced double-layer PCB can be reconfigured, transforming it from an LED watch to an interactive cat toy. The paper concludes with limitations and future directions.

arxiv情報

著者 Zeyu Yan,Advait Vartak,Jiasheng Li,Zining Zhang,Huaishu Peng
発行日 2025-02-18 19:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.HC, cs.RO | コメントする

BoundPlanner: A convex-set-based approach to bounded manipulator trajectory planning

要約

オンライン軌道計画により、ロボットマニピュレーターは、変化する環境やタスクに迅速に対応できます。
既知の環境には多くのロボット軌道プランナーが存在しますが、オンライン計算には遅すぎることがよくあります。
オンライン軌道計画における現在の方法では、ロボットの限界を尊重し、衝突を説明する挑戦的なシナリオに適切な軌跡を見つけられません。
この作業は、BoundPlannerと呼ばれる凸面セットとオンライン軌道プランナーBoundMPCに基づいた新しいデカルトパスプランナーで構成される軌跡計画フレームワークを提案します。
BoundPlannerは、凸セットを使用して衝突のないスペースを探索し、マップして、境界のある参照パスを計算します。
BoundMPCはこの作業で拡張されており、パス逸脱の凸セットを処理します。これにより、ロボットはロボットの運動学を占める間、ロボットが境界内のパスを最適にたどることができます。
ロボットの運動系チェーンの衝突は、障害物の数に依存しない新しい凸面ベースの衝突回避定式化によって考慮されます。
7-DOFマニピュレーターを使用したシミュレーションと実験は、最先端の方法と比較して提案されたプランナーのパフォーマンスを示しています。
ソースコードはgithub.com/thieso/boundplannerで入手でき、実験のビデオはwww.acin.tuwien.ac.at/42d4で見つけることができます。

要約(オリジナル)

Online trajectory planning enables robot manipulators to react quickly to changing environments or tasks. Many robot trajectory planners exist for known environments but are often too slow for online computations. Current methods in online trajectory planning do not find suitable trajectories in challenging scenarios that respect the limits of the robot and account for collisions. This work proposes a trajectory planning framework consisting of the novel Cartesian path planner based on convex sets, called BoundPlanner, and the online trajectory planner BoundMPC. BoundPlanner explores and maps the collision-free space using convex sets to compute a reference path with bounds. BoundMPC is extended in this work to handle convex sets for path deviations, which allows the robot to optimally follow the path within the bounds while accounting for the robot’s kinematics. Collisions of the robot’s kinematic chain are considered by a novel convex-set-based collision avoidance formulation independent on the number of obstacles. Simulations and experiments with a 7-DoF manipulator show the performance of the proposed planner compared to state-of-the-art methods. The source code is available at github.com/Thieso/BoundPlanner and videos of the experiments can be found at www.acin.tuwien.ac.at/42d4

arxiv情報

著者 Thies Oelerich,Christian Hartl-Nesic,Florian Beck,Andreas Kugi
発行日 2025-02-18 21:16:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

LEGATO: Cross-Embodiment Imitation Using a Grasping Tool

要約

相互拡大模倣学習により、特定の実施形態について訓練されたポリシーがさまざまなロボットを越えて移動するためのポリシーを可能にし、費用対効果が高く、非常に再利用可能な大規模な模倣学習の可能性を解き放ちます。
このホワイトペーパーでは、さまざまな運動学的形態を横断する視覚運動スキル移動のための相互拡大模倣学習フレームワークであるLegatoを紹介します。
アクションと観測スペースを統合するハンドヘルドグリッパーを導入し、ロボット全体で一貫してタスクを定義できるようにします。
模倣学習を通じてこのグリッパーを使用して、このグリッパーを使用してタスクデモンストレーションに関する視覚運動ポリシーを訓練し、トレーニングの損失を計算するためのモーション不変のスペースに変換を適用します。
ポリシーによって生成されたグリッパーの動きは、多様な実施形態全体に展開するために逆運動学を使用して、高度の高度全身の動きにリターゲットされます。
シミュレーションとレアルロボット実験の評価は、さまざまなロボットにわたって視覚運動スキルの学習と転送におけるフレームワークの有効性を強調しています。
詳細については、プロジェクトページhttps://ut-hcrl.github.io/legatoをご覧ください。

要約(オリジナル)

Cross-embodiment imitation learning enables policies trained on specific embodiments to transfer across different robots, unlocking the potential for large-scale imitation learning that is both cost-effective and highly reusable. This paper presents LEGATO, a cross-embodiment imitation learning framework for visuomotor skill transfer across varied kinematic morphologies. We introduce a handheld gripper that unifies action and observation spaces, allowing tasks to be defined consistently across robots. We train visuomotor policies on task demonstrations using this gripper through imitation learning, applying transformation to a motion-invariant space for computing the training loss. Gripper motions generated by the policies are retargeted into high-degree-of-freedom whole-body motions using inverse kinematics for deployment across diverse embodiments. Our evaluations in simulation and real-robot experiments highlight the framework’s effectiveness in learning and transferring visuomotor skills across various robots. More information can be found on the project page: https://ut-hcrl.github.io/LEGATO.

arxiv情報

著者 Mingyo Seo,H. Andy Park,Shenli Yuan,Yuke Zhu,Luis Sentis
発行日 2025-02-19 01:01:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

A Space-Efficient Algebraic Approach to Robotic Motion Planning

要約

インフラストラクチャ検査や自動手術イメージングなどのアプリケーションでのロボットの効率的なルート計画を検討します。
これらのタスクは、組み合わせ問題グラフ検査を介してモデル化できます。
この問題の最もよく知られているアルゴリズムは、指数関数的な空間の複雑さによって実際には限られています。
このホワイトペーパーでは、特定の算術回路に関連する多項式での単項テストに関連する代数ツールを使用して、メモリ効率の高いアプローチを開発します。
私たちの貢献は2つあります。
最初に、ツリー証明書と呼ばれる新しいアプローチを使用して、モノミアル検出に関する既存の作業における軽微な欠陥を修復します。
さらに、検出に加えて、これらのツールにより、回路から関心のあるモノマリアルを効率的に回復し、関連する代数ツールの大幅な拡大を拡大するためにドアを開けることができることを示しています。
グラフ検査のために、完全な代数パイプラインを設計および評価します。
私たちの設計された実装は、回路ベースのアルゴリズムが実際にメモリ効率が高いことを示しており、したがって、さらなるエンジニアリングの取り組みを促進することを示しています。

要約(オリジナル)

We consider efficient route planning for robots in applications such as infrastructure inspection and automated surgical imaging. These tasks can be modeled via the combinatorial problem Graph Inspection. The best known algorithms for this problem are limited in practice by exponential space complexity. In this paper, we develop a memory-efficient approach using algebraic tools related to monomial testing on the polynomials associated with certain arithmetic circuits. Our contributions are two-fold. We first repair a minor flaw in existing work on monomial detection using a new approach we call tree certificates. We further show that, in addition to detection, these tools allow us to efficiently recover monomials of interest from circuits, opening the door for significantly broadened application of related algebraic tools. For Graph Inspection, we design and evaluate a complete algebraic pipeline. Our engineered implementation demonstrates that circuit-based algorithms are indeed memory-efficient in practice, thus encouraging further engineering efforts.

arxiv情報

著者 Matthias Bentert,Daniel Coimbra Salomao,Alex Crane,Yosuke Mizutani,Felix Reidl,Blair D. Sullivan
発行日 2025-02-19 01:36:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.RO | コメントする

Low-Complexity Cooperative Payload Transportation for Nonholonomic Mobile Robots Under Scalable Constraints

要約

ロジスティクスサイバー物理システム(CPS)の重要な側面である協同輸送は、通常、分配された制御と最適化ベースの方法を使用してアプローチされます。
分散制御方法の消費時間は少なくなりますが、ハンドルが不十分で複数の制約に拡張されます。
代わりに、最適化ベースの方法は制約を効果的に処理しますが、通常は集中化され、時間がかかり、したがって多数のロボットに簡単にスケーラブルではありません。
両方の欠点を克服するために、分散されている従来の形成制御が低い状態であることを証明することにより、非ホロノミックモバイルロボットの新しい協同輸送方法を提案し、スケーラブルな制約に対応します。
提案された制御ベースの方法は、ケーブルの吊り下げ済みペイロードで証言され、ロボットの軌跡の生成と軌跡追跡を含む2つの部分に分割されます。
ほとんどの時間のかかる軌道生成方法とは異なり、私たちのものは、グローバルマップに不必要な、一定の時間的概念のみで軌道を生成できます。
軌道追跡に関しては、制御ベースの方法は、それらの最適化ベースの方法として複数の制約に簡単にスケーリングするだけでなく、ポリノミアルから線形にそれらの時間的酸素性を削減します。
シミュレーションと実験では、メソッドの実現可能性を検証できます。

要約(オリジナル)

Cooperative transportation, a key aspect of logistics cyber-physical systems (CPS), is typically approached using dis tributed control and optimization-based methods. The distributed control methods consume less time, but poorly handle and extend to multiple constraints. Instead, optimization-based methods handle constraints effectively, but they are usually centralized, time-consuming and thus not easily scalable to numerous robots. To overcome drawbacks of both, we propose a novel cooperative transportation method for nonholonomic mobile robots by im proving conventional formation control, which is distributed, has a low time-complexity and accommodates scalable constraints. The proposed control-based method is testified on a cable suspended payload and divided into two parts, including robot trajectory generation and trajectory tracking. Unlike most time consuming trajectory generation methods, ours can generate trajectories with only constant time-complexity, needless of global maps. As for trajectory tracking, our control-based method not only scales easily to multiple constraints as those optimization based methods, but reduces their time-complexity from poly nomial to linear. Simulations and experiments can verify the feasibility of our method.

arxiv情報

著者 Renhe Guan,Yuanzhe Wang,Tao Liu,Yan Wang
発行日 2025-02-19 02:02:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Generalizable Humanoid Manipulation with 3D Diffusion Policies

要約

多様な環境で自律的な操作が可能なヒューマノイドロボットは、長い間ロボット奏者の目標となっています。
ただし、ヒューマノイドロボットによる自律的な操作は、主に一般化可能なスキルを習得することの難しさと、ワイルドヒューマノイドロボットデータの高価のために、1つの特定のシーンに大部分が制限されています。
この作業では、この挑戦​​的な問題に対処するための現実世界のロボットシステムを構築します。
私たちのシステムは、主に1)人間のようなロボットデータを取得するための全枝全身ロボットテレオペレーションシステムの統合です。
ヒューマノイドロボットの3D拡散ポリシー学習アルゴリズムが改善され、騒々しい人間のデータから学習しました。
厳密なポリシー評価のために、実際のロボットで2000以上のポリシーロールアウトエピソードを実行しています。
このシステムに力を与え、1つのシーンで収集されたデータのみを使用して、オンボードコンピューティングのみを使用して、フルサイズのヒューマノイドロボットが多様な現実世界のシナリオでスキルを自律的に実行できることを示しています。
ビデオは\ href {https://humanoid-manipulation.github.io} {Humanoid-manipulation.github.io}で入手できます。

要約(オリジナル)

Humanoid robots capable of autonomous operation in diverse environments have long been a goal for roboticists. However, autonomous manipulation by humanoid robots has largely been restricted to one specific scene, primarily due to the difficulty of acquiring generalizable skills and the expensiveness of in-the-wild humanoid robot data. In this work, we build a real-world robotic system to address this challenging problem. Our system is mainly an integration of 1) a whole-upper-body robotic teleoperation system to acquire human-like robot data, 2) a 25-DoF humanoid robot platform with a height-adjustable cart and a 3D LiDAR sensor, and 3) an improved 3D Diffusion Policy learning algorithm for humanoid robots to learn from noisy human data. We run more than 2000 episodes of policy rollouts on the real robot for rigorous policy evaluation. Empowered by this system, we show that using only data collected in one single scene and with only onboard computing, a full-sized humanoid robot can autonomously perform skills in diverse real-world scenarios. Videos are available at \href{https://humanoid-manipulation.github.io}{humanoid-manipulation.github.io}.

arxiv情報

著者 Yanjie Ze,Zixuan Chen,Wenhao Wang,Tianyi Chen,Xialin He,Ying Yuan,Xue Bin Peng,Jiajun Wu
発行日 2025-02-19 02:13:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

Functional Eigen-Grasping Using Approach Heatmaps

要約

この作業では、ボタンやトリガーなどの機能部品を含む毎日のツールを自由に利用するためのマルチフィンガーハンドを備えたロボットのフレームワークを提示します。
アプローチヒートマップは、機能的な指を選択することで生成され、機能的な指がツールの機能部品に接触できるようにするオブジェクトの表面に最適な位置を示します。
ヒートマップを介して手のひらの位置が識別されると、機能的な把握を達成することは、指が固有種を使用して低次元入力でオブジェクトを安定に把握する簡単なプロセスになります。
私たちのアプローチでは人間のデモンストレーションは必要ないため、さまざまなサイズやデザインに簡単に適応し、さまざまなオブジェクトに適用可能性を拡張できます。
私たちのアプローチでは、方向性操作性を使用して、アプローチヒートマップを取得します。
さらに、2種類のエネルギー関数、つまり手のひらエネルギーと機能エネルギー関数を追加して、固有種を実現します。
この方法を使用して、各ロボットグリッパーは、機能的な把握に最適なワークスペースを自律的に識別し、非人類のロボットハンドに適用可能性を拡張できます。
スプレー、ドリル、リモートなどのいくつかの毎日のツールが、擬人化された影の手だけでなく、非人道的なバレットハンドによっても効率的に使用できることを示しています。

要約(オリジナル)

This work presents a framework for a robot with a multi-fingered hand to freely utilize daily tools, including functional parts like buttons and triggers. An approach heatmap is generated by selecting a functional finger, indicating optimal palm positions on the object’s surface that enable the functional finger to contact the tool’s functional part. Once the palm position is identified through the heatmap, achieving the functional grasp becomes a straightforward process where the fingers stably grasp the object with low-dimensional inputs using the eigengrasp. As our approach does not need human demonstrations, it can easily adapt to various sizes and designs, extending its applicability to different objects. In our approach, we use directional manipulability to obtain the approach heatmap. In addition, we add two kinds of energy functions, i.e., palm energy and functional energy functions, to realize the eigengrasp. Using this method, each robotic gripper can autonomously identify its optimal workspace for functional grasping, extending its applicability to non-anthropomorphic robotic hands. We show that several daily tools like spray, drill, and remotes can be efficiently used by not only an anthropomorphic Shadow hand but also a non-anthropomorphic Barrett hand.

arxiv情報

著者 Malek Aburub,Kazuki Higashi,Weiwei Wan,Kensuke Harada
発行日 2025-02-19 02:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

CLIP-RT: Learning Language-Conditioned Robotic Policies from Natural Language Supervision

要約

ロボットを教えると、現実世界の環境でスキルが希望することは、特に非専門家にとっては依然として困難です。
ロボット制御およびテレオ操作システムの専門的な専門知識に依存することにより、非専門家へのアクセシビリティが制限されることがよくあります。
自然言語は、ロボット学習のための直感的でアクセス可能なインターフェイスを提供すると仮定します。
この目的のために、(1)非専門家が自然言語の監督を通じてロボットデータを収集できるようにする(例:「腕を右に移動する」」)、(2)この監督から直接ロボットポリシーを直接学習することを可能にする。
具体的には、自然言語の監督に基づいてロボットデモンストレーションを収集し、これらのデモンストレーションをさらに増強するデータ収集フレームワークを紹介します。
次に、この監督から言語条件の視覚運動ポリシーを学習するビジョン言語アクション(VLA)モデルであるClip-RTを提示します。
Clip-RTは、前処理されたクリップモデルを適応し、対照的な模倣学習を介して言語ベースのモーションプリミティブを予測することを学びます。
オープンなX-embodimentデータセットでClip-RTをトレーニングし、さまざまなスキルを学ぶためにフレームワークによって収集されたドメイン内データでFINTUNEを獲得します。
CLIP-RTは、新しい操作スキルを学習し、最先端のモデルであるOpenVLA(7Bパラメーター)を平均成功率で24%上回る強力な能力を示し、7倍のパラメーター(1B)を使用します。
さらに、Clip-RTが少数のショット一般化の大幅な改善を示していることを観察します。
最後に、人間や大規模な事前に守られたモデルとのコラボレーションを通じて、CLIP-RTが挑戦的なタスクに関する一般化をさらに改善できることを実証します。

要約(オリジナル)

Teaching robots desired skills in real-world environments remains challenging, especially for non-experts. The reliance on specialized expertise in robot control and teleoperation systems often limits accessibility to non-experts. We posit that natural language offers an intuitive and accessible interface for robot learning. To this end, we study two aspects: (1) enabling non-experts to collect robotic data through natural language supervision (e.g., ‘move the arm to the right’) and (2) learning robotic policies directly from this supervision. Specifically, we introduce a data collection framework that collects robot demonstrations based on natural language supervision and further augments these demonstrations. We then present CLIP-RT, a vision-language-action (VLA) model that learns language-conditioned visuomotor policies from this supervision. CLIP-RT adapts the pretrained CLIP models and learns to predict language-based motion primitives via contrastive imitation learning. We train CLIP-RT on the Open X-Embodiment dataset and finetune it on in-domain data collected by our framework to learn diverse skills. CLIP-RT demonstrates strong capabilities in learning novel manipulation skills, outperforming the state-of-the-art model, OpenVLA (7B parameters), by 24% in average success rates, while using 7x fewer parameters (1B). We further observe that CLIP-RT shows significant improvements in few-shot generalization. Finally, through collaboration with humans or large pretrained models, we demonstrate that CLIP-RT can further improve its generalization on challenging tasks.

arxiv情報

著者 Gi-Cheon Kang,Junghyun Kim,Kyuhwan Shim,Jun Ki Lee,Byoung-Tak Zhang
発行日 2025-02-19 03:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Object-Pose Estimation With Neural Population Codes

要約

ロボットアセンブリタスクには、特に費用のかかる機械的制約を回避するタスクの場合、オブジェクトポーズの推定が必要です。
オブジェクトの対称性は、回転が曖昧になり、独自のトレーニングターゲットが欠けているため、オブジェクトの回転への感覚入力の直接マッピングを複雑にします。
提案されたソリューションには、入力に対する複数のポーズ仮説を評価するか、確率分布を予測することが含まれますが、これらのアプローチは重要な計算オーバーヘッドに悩まされています。
ここでは、神経集団コードでオブジェクトの回転を表すことがこれらの制限を克服し、回転とエンドツーエンドの学習への直接マッピングを可能にすることを示します。
その結果、人口コードは迅速かつ正確なポーズ推定を促進します。
T-Lessデータセットでは、Apple M1 CPUの3.2ミリ秒で推論を達成し、グレースケールの画像入力のみを使用して、直接マッピングにポーズをとると69.7%の精度と比較して、84.7%の最大対称性表面距離精度を84.7%に達成します。

要約(オリジナル)

Robotic assembly tasks require object-pose estimation, particularly for tasks that avoid costly mechanical constraints. Object symmetry complicates the direct mapping of sensory input to object rotation, as the rotation becomes ambiguous and lacks a unique training target. Some proposed solutions involve evaluating multiple pose hypotheses against the input or predicting a probability distribution, but these approaches suffer from significant computational overhead. Here, we show that representing object rotation with a neural population code overcomes these limitations, enabling a direct mapping to rotation and end-to-end learning. As a result, population codes facilitate fast and accurate pose estimation. On the T-LESS dataset, we achieve inference in 3.2 milliseconds on an Apple M1 CPU and a Maximum Symmetry-Aware Surface Distance accuracy of 84.7% using only gray-scale image input, compared to 69.7% accuracy when directly mapping to pose.

arxiv情報

著者 Heiko Hoffmann,Richard Hoffmann
発行日 2025-02-19 03:23:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする