Dreaming to Assist: Learning to Align with Human Objectives for Shared Control in High-Speed Racing

要約

マルチカーレースなど、素早いダイナミクスと戦術的決定を伴う領域で効果的な人間とロボットのチームを組むには、緊密な調整が必要です。
このような設定では、ロボットのチームメイトは、人間のチームメイトの戦術目標の合図に反応して、目標と一致する方法で支援する必要があります(障害物の周囲を左右にナビゲートするなど)。
この課題に対処するために、人間の目的と価値関数を推測できるリッチワールド モデルと、特定の人間のチームメイトに適切な専門家の支援を提供する支援エージェントを組み合わせたフレームワークである Dream2Assist を紹介します。
私たちのアプローチは、人間の意図を明示的に推測するリカレント状態空間モデルに基づいて構築されており、支援エージェントが人間に合わせたアクションを選択できるようにし、流動的なチームインタラクションを可能にします。
私たちは、「後ろに留まる」や「追い抜く」などの相互に排他的な目標を追求する合成人間のドライバー集団を使用して、高速レース領域でのアプローチを実証します。
人間とロボットを組み合わせたチームは、その行動と人間の行動を融合すると、合成人間単独やいくつかのベースライン支援戦略よりも優れたパフォーマンスを示し、インテントコンディショニングによりタスク実行中に人間の好みに従うことが可能になり、パフォーマンスの向上につながることを示します。
人間の目的を満たしながらパフォーマンスを発揮すること。

要約(オリジナル)

Tight coordination is required for effective human-robot teams in domains involving fast dynamics and tactical decisions, such as multi-car racing. In such settings, robot teammates must react to cues of a human teammate’s tactical objective to assist in a way that is consistent with the objective (e.g., navigating left or right around an obstacle). To address this challenge, we present Dream2Assist, a framework that combines a rich world model able to infer human objectives and value functions, and an assistive agent that provides appropriate expert assistance to a given human teammate. Our approach builds on a recurrent state space model to explicitly infer human intents, enabling the assistive agent to select actions that align with the human and enabling a fluid teaming interaction. We demonstrate our approach in a high-speed racing domain with a population of synthetic human drivers pursuing mutually exclusive objectives, such as ‘stay-behind’ and ‘overtake’. We show that the combined human-robot team, when blending its actions with those of the human, outperforms the synthetic humans alone as well as several baseline assistance strategies, and that intent-conditioning enables adherence to human preferences during task execution, leading to improved performance while satisfying the human’s objective.

arxiv情報

著者 Jonathan DeCastro,Andrew Silva,Deepak Gopinath,Emily Sumner,Thomas M. Balch,Laporsha Dees,Guy Rosman
発行日 2024-10-14 01:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | Dreaming to Assist: Learning to Align with Human Objectives for Shared Control in High-Speed Racing はコメントを受け付けていません

NeRF-enabled Analysis-Through-Synthesis for ISAR Imaging of Small Everyday Objects with Sparse and Noisy UWB Radar Data

要約

逆合成開口レーダー (ISAR) イメージングは​​、限られたレーダー断面積 (RCS) とレーダー システム固有の解像度の制約により、日常の小さな物体に関しては大きな課題を抱えています。
逆投影 (BP) を含む既存の ISAR 再構成手法は、多くの場合、複雑なセットアップと制御された環境を必要とするため、現実世界の多くのノイズの多いシナリオでは実用的ではありません。
この論文では、低コストでまばらでノイズの多い超広帯域 (UWB) レーダー データを使用して、小さな物体の高解像度コヒーレント ISAR イメージングを実現する、Neural Radiance Fields (NeRF) によって可能になる新しい Analysis-through-Synthesis (ATS) フレームワークを提案します。
そしてポータブルセットアップ。
当社のエンドツーエンドのフレームワークは、超広帯域レーダー波の伝播、反射特性、およびシーン事前分布を統合し、高価な電波暗室や複雑な測定テストベッドを必要とせずに、効率的な 2D シーンの再構築を可能にします。
定性的および定量的な比較により、提案された方法が従来の技術よりも優れており、特に限られたビュー数とノイズの多いシナリオで、複数のターゲットと複雑な構造を持つ複雑なシーンの ISAR 画像を生成することを実証します。
まばらな UWB レーダー スキャン。
この研究は、日常の小さな物体の実用的でコスト効率の高いISARイメージングに向けた重要な一歩を表しており、ロボット工学やモバイルセンシングアプリケーションに広範な影響を及ぼします。

要約(オリジナル)

Inverse Synthetic Aperture Radar (ISAR) imaging presents a formidable challenge when it comes to small everyday objects due to their limited Radar Cross-Section (RCS) and the inherent resolution constraints of radar systems. Existing ISAR reconstruction methods including backprojection (BP) often require complex setups and controlled environments, rendering them impractical for many real-world noisy scenarios. In this paper, we propose a novel Analysis-through-Synthesis (ATS) framework enabled by Neural Radiance Fields (NeRF) for high-resolution coherent ISAR imaging of small objects using sparse and noisy Ultra-Wideband (UWB) radar data with an inexpensive and portable setup. Our end-to-end framework integrates ultra-wideband radar wave propagation, reflection characteristics, and scene priors, enabling efficient 2D scene reconstruction without the need for costly anechoic chambers or complex measurement test beds. With qualitative and quantitative comparisons, we demonstrate that the proposed method outperforms traditional techniques and generates ISAR images of complex scenes with multiple targets and complex structures in Non-Line-of-Sight (NLOS) and noisy scenarios, particularly with limited number of views and sparse UWB radar scans. This work represents a significant step towards practical, cost-effective ISAR imaging of small everyday objects, with broad implications for robotics and mobile sensing applications.

arxiv情報

著者 Md Farhan Tasnim Oshim,Albert Reed,Suren Jayasuriya,Tauhidur Rahman
発行日 2024-10-14 01:57:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO | NeRF-enabled Analysis-Through-Synthesis for ISAR Imaging of Small Everyday Objects with Sparse and Noisy UWB Radar Data はコメントを受け付けていません

The Ingredients for Robotic Diffusion Transformers

要約

近年、ロボット工学者は、大容量の Transformer ネットワーク アーキテクチャと生成拡散モデルを活用して、器用なロボット ハードウェアでますます一般的なタスクを解決するという点で目覚ましい進歩を遂げています。
残念ながら、重要な設計選択を行うための明確でよく理解されたプロセスがないため、これら 2 つの直交する改善を組み合わせるのは驚くほど難しいことが判明しています。
このペーパーでは、大容量拡散変圧器ポリシーに関する主要なアーキテクチャ設計上の決定事項を特定、研究、改善します。
結果として得られるモデルは、セットアップごとのハイパーパラメータ調整という耐え難い苦痛を伴うことなく、複数のロボットの実施形態上で多様なタスクを効率的に解決することができる。
私たちの調査結果と改良されたモデル コンポーネントを組み合わせることで、\method という名前の新しいアーキテクチャを提示することができます。これは、長期 ($1500+$ タイムステップ) の器用なタスクを解決する際に最先端のパフォーマンスを大幅に上回ります。
両手操作のALOHAロボット。
さらに、高度にマルチモーダルで言語注釈が付けられた 10 時間の ALOHA デモ データでトレーニングした場合、私たちのポリシーはスケーリング パフォーマンスの向上を示していることがわかりました。
私たちは、この研究が、大規模変圧器アーキテクチャの拡張性を備えた生成拡散モデリングの効率を活用する将来のロボット学習技術への扉を開くことを願っています。
コード、ロボット データセット、ビデオは https://dit-policy.github.io から入手できます。

要約(オリジナル)

In recent years roboticists have achieved remarkable progress in solving increasingly general tasks on dexterous robotic hardware by leveraging high capacity Transformer network architectures and generative diffusion models. Unfortunately, combining these two orthogonal improvements has proven surprisingly difficult, since there is no clear and well-understood process for making important design choices. In this paper, we identify, study and improve key architectural design decisions for high-capacity diffusion transformer policies. The resulting models can efficiently solve diverse tasks on multiple robot embodiments, without the excruciating pain of per-setup hyper-parameter tuning. By combining the results of our investigation with our improved model components, we are able to present a novel architecture, named \method, that significantly outperforms the state of the art in solving long-horizon ($1500+$ time-steps) dexterous tasks on a bi-manual ALOHA robot. In addition, we find that our policies show improved scaling performance when trained on 10 hours of highly multi-modal, language annotated ALOHA demonstration data. We hope this work will open the door for future robot learning techniques that leverage the efficiency of generative diffusion modeling with the scalability of large scale transformer architectures. Code, robot dataset, and videos are available at: https://dit-policy.github.io

arxiv情報

著者 Sudeep Dasari,Oier Mees,Sebastian Zhao,Mohan Kumar Srirama,Sergey Levine
発行日 2024-10-14 02:02:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | The Ingredients for Robotic Diffusion Transformers はコメントを受け付けていません

Innovative Deep Learning Techniques for Obstacle Recognition: A Comparative Study of Modern Detection Algorithms

要約

この研究では、高度な YOLO モデル、特に YOLOv8、YOLOv7、YOLOv6、および YOLOv5 を使用した障害物検出への包括的なアプローチを検討します。
この研究では、深層学習技術を活用して、リアルタイム検出シナリオにおけるこれらのモデルのパフォーマンス比較に焦点を当てています。
この調査結果は、YOLOv8 が改善された精度と再現率のメトリクスにより最高の精度を達成していることを示しています。
モデルの有効性を検証するために、詳細なトレーニング プロセス、アルゴリズム原理、およびさまざまな実験結果が示されています。

要約(オリジナル)

This study explores a comprehensive approach to obstacle detection using advanced YOLO models, specifically YOLOv8, YOLOv7, YOLOv6, and YOLOv5. Leveraging deep learning techniques, the research focuses on the performance comparison of these models in real-time detection scenarios. The findings demonstrate that YOLOv8 achieves the highest accuracy with improved precision-recall metrics. Detailed training processes, algorithmic principles, and a range of experimental results are presented to validate the model’s effectiveness.

arxiv情報

著者 Santiago Pérez,Camila Gómez,Matías Rodríguez
発行日 2024-10-14 02:28:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Innovative Deep Learning Techniques for Obstacle Recognition: A Comparative Study of Modern Detection Algorithms はコメントを受け付けていません

On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability

要約

大規模言語モデル (LLM) の最近の進歩により、複雑な推論タスクを実行する能力が実証されましたが、計画における LLM の有効性はまだ解明されていません。
この研究では、実現可能性、最適性、一般化可能性という 3 つの重要な側面に焦点を当て、さまざまなベンチマーク タスクにわたる OpenAI の o1 モデルの計画機能を評価します。
制約の多いタスク ($\textit{Barman}$、$\textit{Tyreworld}$ など) および空間的に複雑な環境 ($\textit{Termes}$、$\textit{Floortile}$ など) の経験的評価を通じて
では、自己評価と制約追従における o1-preview の強みを強調するとともに、特に堅牢な空間推論を必要とするタスクにおける意思決定とメモリ管理のボトルネックも特定します。
私たちの結果は、o1-preview がタスクの制約を遵守し、構造化された環境で状態遷移を管理する点で GPT-4 よりも優れていることを明らかにしました。
ただし、このモデルは冗長なアクションを含む次善の解決策を生成することが多く、空間的に複雑なタスクを効果的に一般化するのに苦労します。
このパイロット研究は、LLM の計画の限界についての基礎的な洞察を提供し、LLM ベースの計画におけるメモリ管理、意思決定、および一般化の改善に関する将来の研究に重要な方向性を提供します。
コードは https://github.com/VITA-Group/o1-planning で入手できます。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have showcased their ability to perform complex reasoning tasks, but their effectiveness in planning remains underexplored. In this study, we evaluate the planning capabilities of OpenAI’s o1 models across a variety of benchmark tasks, focusing on three key aspects: feasibility, optimality, and generalizability. Through empirical evaluations on constraint-heavy tasks (e.g., $\textit{Barman}$, $\textit{Tyreworld}$) and spatially complex environments (e.g., $\textit{Termes}$, $\textit{Floortile}$), we highlight o1-preview’s strengths in self-evaluation and constraint-following, while also identifying bottlenecks in decision-making and memory management, particularly in tasks requiring robust spatial reasoning. Our results reveal that o1-preview outperforms GPT-4 in adhering to task constraints and managing state transitions in structured environments. However, the model often generates suboptimal solutions with redundant actions and struggles to generalize effectively in spatially complex tasks. This pilot study provides foundational insights into the planning limitations of LLMs, offering key directions for future research on improving memory management, decision-making, and generalization in LLM-based planning. Code available at https://github.com/VITA-Group/o1-planning.

arxiv情報

著者 Kevin Wang,Junbo Li,Neel P. Bhatt,Yihan Xi,Qiang Liu,Ufuk Topcu,Zhangyang Wang
発行日 2024-10-14 03:41:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability はコメントを受け付けていません

Signage-Aware Exploration in Open World using Venue Maps

要約

現在の探索方法では、事前知識とテキスト認識機能が不足しているため、未知のオープンワールド環境で店舗を検索するのは困難です。
会場マップは、現場の標識と地図データを関連付けることにより、探索計画に役立つ貴重な情報を提供します。
しかし、標識上のテキストの任意の形状やスタイルは、複数の視点での不一致とともに、ロボットによる正確な認識に重大な課題をもたらします。
さらに、現実世界の環境と会場の地図との間に不一致があるため、テキスト情報をプランナーに組み込むことが妨げられます。
この論文では、これらの課題に対処し、ロボットが会場マップを効果的に利用できるようにする、新しい標識認識探索システムを紹介します。
我々は、2D から 3D への意味論的融合戦略と組み合わせた拡散ベースのテキストインスタンス検索手法を使用して、看板上のテキストを正確に検出および認識する看板理解方法を提案します。
さらに、会場マップから導き出された方向性ヒューリスティックを使用した未知の領域での探索と、より良く認識できるよう近づいて方向を調整する活用とのバランスをとる、会場マップに基づく探索・活用プランナーを設計します。
大規模ショッピングモールでの実験では、当社の手法の優れた標識認識精度とカバー効率が実証され、最先端のシーンテキストスポッティング手法や従来の探索手法を上回っています。

要約(オリジナル)

Current exploration methods struggle to search for shops in unknown open-world environments due to a lack of prior knowledge and text recognition capabilities. Venue maps offer valuable information that can aid exploration planning by correlating scene signage with map data. However, the arbitrary shapes and styles of the text on signage, along with multi-view inconsistencies, pose significant challenges for accurate recognition by robots. Additionally, the discrepancies between real-world environments and venue maps hinder the incorporation of text information into planners. This paper introduces a novel signage-aware exploration system to address these challenges, enabling the robot to utilize venue maps effectively. We propose a signage understanding method that accurately detects and recognizes the text on signage using a diffusion-based text instance retrieval method combined with a 2D-to-3D semantic fusion strategy. Furthermore, we design a venue map-guided exploration-exploitation planner that balances exploration in unknown regions using a directional heuristic derived from venue maps with exploitation to get close and adjust orientation for better recognition. Experiments in large-scale shopping malls demonstrate our method’s superior signage recognition accuracy and coverage efficiency, outperforming state-of-the-art scene text spotting methods and traditional exploration methods.

arxiv情報

著者 Chang Chen,Liang Lu,Lei Yang,Yinqiang Zhang,Yizhou Chen,Ruixing Jia,Jia Pan
発行日 2024-10-14 04:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Signage-Aware Exploration in Open World using Venue Maps はコメントを受け付けていません

Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation

要約

視覚と言語のナビゲーション (VLN) により、エージェントは自然言語の指示に従って 3D 環境の遠隔地に移動できます。
この分野では、エージェントは通常、ナビゲーション シミュレーターでトレーニングおよび評価されますが、シミュレーションからリアルへの移行のための効果的なアプローチが不足しています。
単眼カメラのみを備えた VLN エージェントのパフォーマンスは非常に限られていますが、パノラマ観察でトレーニングされた主流の VLN モデルはパフォーマンスは向上しますが、ほとんどの単眼ロボットに導入するのは困難です。
この場合、単眼ロボットにパノラマ横断可能性知覚とパノラマ意味論的理解を与えるためのシミュレーションからリアルへの転送アプローチを提案します。これにより、高性能パノラマ VLN モデルを一般的な単眼ロボットにスムーズに転送できます。
この研究では、エージェント中心のナビゲーション可能なウェイポイントを予測するためにセマンティック トラバース可能マップが提案され、これらのナビゲーション可能なウェイポイントの新しいビュー表現が 3D フィーチャ フィールドを通じて予測されます。
これらの方法により、単眼ロボットの限られた視野が広がり、現実世界でのナビゲーション性能が大幅に向上します。
当社の VLN システムは、シミュレーション環境内の R2R-CE および RxR-CE ベンチマークで以前の SOTA 単眼 VLN 手法を上回っており、実世界の環境でも検証されており、実世界の VLN に実用的で高性能のソリューションを提供します。

要約(オリジナル)

Vision-and-language navigation (VLN) enables the agent to navigate to a remote location in 3D environments following the natural language instruction. In this field, the agent is usually trained and evaluated in the navigation simulators, lacking effective approaches for sim-to-real transfer. The VLN agents with only a monocular camera exhibit extremely limited performance, while the mainstream VLN models trained with panoramic observation, perform better but are difficult to deploy on most monocular robots. For this case, we propose a sim-to-real transfer approach to endow the monocular robots with panoramic traversability perception and panoramic semantic understanding, thus smoothly transferring the high-performance panoramic VLN models to the common monocular robots. In this work, the semantic traversable map is proposed to predict agent-centric navigable waypoints, and the novel view representations of these navigable waypoints are predicted through the 3D feature fields. These methods broaden the limited field of view of the monocular robots and significantly improve navigation performance in the real world. Our VLN system outperforms previous SOTA monocular VLN methods in R2R-CE and RxR-CE benchmarks within the simulation environments and is also validated in real-world environments, providing a practical and high-performance solution for real-world VLN.

arxiv情報

著者 Zihan Wang,Xiangyang Li,Jiahao Yang,Yeqi Liu,Shuqiang Jiang
発行日 2024-10-14 04:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation はコメントを受け付けていません

Learning Granular Media Avalanche Behavior for Indirectly Manipulating Obstacles on a Granular Slope

要約

砂の斜面での脚式ロボットの移動は、粒状媒体の複雑な力学と、固体表面の欠如が移動の妨げとなる可能性があるため、困難です。
オバケガニや自然界の他の生物からヒントを得た有望な戦略は、岩、瓦礫、その他の障害物と戦略的に相互作用して移動を促進することです。
脚式ロボットにこの機能を提供するために、雪崩力学を利用して粒度の高い斜面上の物体を間接的に操作する新しいアプローチを提案します。
ビジョン トランスフォーマー (ViT) を使用して、粒度の高いダイナミクスとロボットの掘削アクションの画像表現を処理します。
ViT はオブジェクトの動きを予測し、それを使用してどの脚の掘削アクションを実行するかを決定します。
私たちは 100 回の実際の物理試験からトレーニング データを収集し、テスト時にトレーニング済みのモデルを新しい設定に展開します。
実験結果は、私たちのモデルが物体の動きを正確に予測し、最大 4 つの障害物を伴うさまざまな操作タスクで成功率 $\geq 80\%$ を達成でき、また、異なる物理特性を持つ物体にも一般化できることを示唆しています。
私たちの知る限り、これは粒状媒体雪崩ダイナミクスを利用して粒状斜面上のオブジェクトを間接的に操作する最初の論文です。
補足資料は https://sites.google.com/view/gran-corl2024/home で入手できます。

要約(オリジナル)

Legged robot locomotion on sand slopes is challenging due to the complex dynamics of granular media and how the lack of solid surfaces can hinder locomotion. A promising strategy, inspired by ghost crabs and other organisms in nature, is to strategically interact with rocks, debris, and other obstacles to facilitate movement. To provide legged robots with this ability, we present a novel approach that leverages avalanche dynamics to indirectly manipulate objects on a granular slope. We use a Vision Transformer (ViT) to process image representations of granular dynamics and robot excavation actions. The ViT predicts object movement, which we use to determine which leg excavation action to execute. We collect training data from 100 real physical trials and, at test time, deploy our trained model in novel settings. Experimental results suggest that our model can accurately predict object movements and achieve a success rate $\geq 80\%$ in a variety of manipulation tasks with up to four obstacles, and can also generalize to objects with different physics properties. To our knowledge, this is the first paper to leverage granular media avalanche dynamics to indirectly manipulate objects on granular slopes. Supplementary material is available at https://sites.google.com/view/grain-corl2024/home.

arxiv情報

著者 Haodi Hu,Feifei Qian,Daniel Seita
発行日 2024-10-14 05:36:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Granular Media Avalanche Behavior for Indirectly Manipulating Obstacles on a Granular Slope はコメントを受け付けていません

Fusion-Driven Tree Reconstruction and Fruit Localization: Advancing Precision in Agriculture

要約

果物の流通は、農業と農業ロボットの将来を形作る上で極めて重要であり、合理化されたサプライチェーンへの道を切り開きます。
この研究では、RGB 画像、LiDAR、IMU データの相乗効果を利用して、複雑な樹木の再構成と果物のピンポイント位置特定を実現する革新的な方法論を導入しています。
このような統合により、果実の分布に関する洞察が得られ、農業用ロボットや自動化システムのガイダンスの精度が向上するだけでなく、さまざまな樹木構造にわたって合成果実のパターンをシミュレートするための準備も整えられます。
このアプローチを検証するために、制御された環境と実際の桃園の両方で実験が行われました。
この結果は、この融合駆動方法論の堅牢性と有効性を強調し、将来の農業ロボット工学と精密農業のための変革ツールとしての可能性を強調しています。

要約(オリジナル)

Fruit distribution is pivotal in shaping the future of both agriculture and agricultural robotics, paving the way for a streamlined supply chain. This study introduces an innovative methodology that harnesses the synergy of RGB imagery, LiDAR, and IMU data, to achieve intricate tree reconstructions and the pinpoint localization of fruits. Such integration not only offers insights into the fruit distribution, which enhances the precision of guidance for agricultural robotics and automation systems, but also sets the stage for simulating synthetic fruit patterns across varied tree architectures. To validate this approach, experiments have been carried out in both a controlled environment and an actual peach orchard. The results underscore the robustness and efficacy of this fusion-driven methodology, highlighting its potential as a transformative tool for future agricultural robotics and precision farming.

arxiv情報

著者 Kaiming Fu,Peng Wei,Juan Villacres,Zhaodan Kong,Stavros G. Vougioukas,Brian N. Bailey
発行日 2024-10-14 05:37:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Fusion-Driven Tree Reconstruction and Fruit Localization: Advancing Precision in Agriculture はコメントを受け付けていません

Twisting Lids Off with Two Hands

要約

2 本の多指ハンドで物体を操作することは、多くの操作タスクの接触が多い性質と、高次元の両手システムの調整に固有の複雑さのため、ロボット工学における長年の課題でした。
この研究では、深層強化学習 (RL) を使用したシミュレーションでトレーニングされたポリシーを効果的かつ効率的に現実世界に転送できるようにする、物理モデリング、リアルタイム認識、報酬設計に関する新しい洞察を共有します。
具体的には、さまざまな瓶のようなオブジェクトの蓋を両手でひねるという問題を検討し、目に見えないオブジェクトの多様なセットにわたる一般化機能と、動的で器用な動作を備えたポリシーを実証します。
私たちの知る限り、これは両手の多指の手でそのような機能を可能にする最初の sim-to-real RL システムです。

要約(オリジナル)

Manipulating objects with two multi-fingered hands has been a long-standing challenge in robotics, due to the contact-rich nature of many manipulation tasks and the complexity inherent in coordinating a high-dimensional bimanual system. In this work, we share novel insights into physical modeling, real-time perception, and reward design that enable policies trained in simulation using deep reinforcement learning (RL) to be effectively and efficiently transferred to the real world. Specifically, we consider the problem of twisting lids of various bottle-like objects with two hands, demonstrating policies with generalization capabilities across a diverse set of unseen objects as well as dynamic and dexterous behaviors. To the best of our knowledge, this is the first sim-to-real RL system that enables such capabilities on bimanual multi-fingered hands.

arxiv情報

著者 Toru Lin,Zhao-Heng Yin,Haozhi Qi,Pieter Abbeel,Jitendra Malik
発行日 2024-10-14 06:02:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Twisting Lids Off with Two Hands はコメントを受け付けていません