Magic 1-For-1: Generating One Minute Video Clips within One Minute

要約

このテクニカルレポートでは、最適化されたメモリ消費と推論潜時を備えた効率的なビデオ生成モデルであるMagic 1-for-1(MAGIC141)を紹介します。
重要なアイデアは単純です。テキストからビデオへの生成タスクを、拡散ステップ蒸留のための2つの別々の簡単なタスク、つまりテキストからイメージの生成と画像間生成に因数分解します。
同じ最適化アルゴリズムを使用して、画像からビデオへのタスクが実際にテキストからビデオへのタスク上で収束しやすいことを確認します。
また、最適化のトリックのバッグを探索して、3つの側面から画像間(I2V)モデルをトレーニングする計算コストを削減します。1)モデルの収束速度速度マルチモーダル事前条件注入を使用して。
2)敵対的なステップ蒸留を適用することにより、推論の遅延速度を上げ、3)パラメーターのスパース化による推論メモリコストの最適化。
これらのテクニックを使用すると、3秒以内に5秒のビデオクリップを生成できます。
テスト時間スライドウィンドウを適用することにより、視覚品質とモーションダイナミクスが大幅に向上し、1分以内に1分以内に1分間のビデオを生成することができ、平均で1秒のビデオクリップを生成するために1秒未満を費やすことができます。
一連の予備調査を実施して、拡散ステップ蒸留中に計算コストとビデオの品質との最適なトレードオフを調べ、これがオープンソース探索の良い基盤モデルになることを願っています。
コードとモデルの重みは、https://github.com/da-group-pku/magic-1-for-1で入手できます。

要約(オリジナル)

In this technical report, we present Magic 1-For-1 (Magic141), an efficient video generation model with optimized memory consumption and inference latency. The key idea is simple: factorize the text-to-video generation task into two separate easier tasks for diffusion step distillation, namely text-to-image generation and image-to-video generation. We verify that with the same optimization algorithm, the image-to-video task is indeed easier to converge over the text-to-video task. We also explore a bag of optimization tricks to reduce the computational cost of training the image-to-video (I2V) models from three aspects: 1) model convergence speedup by using a multi-modal prior condition injection; 2) inference latency speed up by applying an adversarial step distillation, and 3) inference memory cost optimization with parameter sparsification. With those techniques, we are able to generate 5-second video clips within 3 seconds. By applying a test time sliding window, we are able to generate a minute-long video within one minute with significantly improved visual quality and motion dynamics, spending less than 1 second for generating 1 second video clips on average. We conduct a series of preliminary explorations to find out the optimal tradeoff between computational cost and video quality during diffusion step distillation and hope this could be a good foundation model for open-source explorations. The code and the model weights are available at https://github.com/DA-Group-PKU/Magic-1-For-1.

arxiv情報

著者 Hongwei Yi,Shitong Shao,Tian Ye,Jiantong Zhao,Qingyu Yin,Michael Lingelbach,Li Yuan,Yonghong Tian,Enze Xie,Daquan Zhou
発行日 2025-02-17 02:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Magic 1-For-1: Generating One Minute Video Clips within One Minute はコメントを受け付けていません

Perch like a bird: bio-inspired optimal maneuvers and nonlinear control for Flapping-Wing Unmanned Aerial Vehicles

要約

この研究は、Ornithopterロボットでの止まる操作と制御を設計するために努力しています。
ロボットのフライトダイナミクス、フィードバックループ、環境制約の間の動的な相互作用を分析することにより、腰掛ける操作の理解を促進し、生物学的システムに類似点を引き出すことを目指しています。
鳥類の飛行で観察されたエレガントな制御戦略に触発されて、安定した止まり木を実現するために、最適な操作と対応するコントローラーを開発します。
操作は、キネマティックおよびダイナミックな制約を条件として、止まりの最小速度の最適化問題を分析的に解決することから生じる減速と急速なピッチアップ(垂直方向のターン)で構成されています。
羽ばたき周波数と尾の対称的な偏向のコントローラーは非線形で適応的であり、堅牢に安定した止まることを保証します。
実際、このような適応行動には、サイバネティックスの恒常性原理が制御システムに組み込まれているため、予期せぬ乱れに適応し、腰掛け操作中に安定した姿勢を維持する能力が向上します。
結果として生じる自律的な止まり木の操縦 – 閉ループの降下とターン – は、検証および検証されており、文献で報告されている本物の鳥の止まりの軌跡との優れた一致を示しています。
これらの発見は、鳥の熟練した止まる操縦をよりよく模倣する将来のプロトタイプの開発のための理論的基礎を築きます。

要約(オリジナル)

This research endeavors to design the perching maneuver and control in ornithopter robots. By analyzing the dynamic interplay between the robot’s flight dynamics, feedback loops, and the environmental constraints, we aim to advance our understanding of the perching maneuver, drawing parallels to biological systems. Inspired by the elegant control strategies observed in avian flight, we develop an optimal maneuver and a corresponding controller to achieve stable perching. The maneuver consists of a deceleration and a rapid pitch-up (vertical turn), which arises from analytically solving the optimization problem of minimal velocity at perch, subject to kinematic and dynamic constraints. The controller for the flapping frequency and tail symmetric deflection is nonlinear and adaptive, ensuring robustly stable perching. Indeed, such adaptive behavior in a sense incorporates homeostatic principles of cybernetics into the control system, enhancing the robot’s ability to adapt to unexpected disturbances and maintain a stable posture during the perching maneuver. The resulting autonomous perching maneuvers — closed-loop descent and turn — , have been verified and validated, demonstrating excellent agreement with real bird perching trajectories reported in the literature. These findings lay the theoretical groundwork for the development of future prototypes that better imitate the skillful perching maneuvers of birds.

arxiv情報

著者 C. Ruiz,J. Á. Acosta
発行日 2025-02-13 19:24:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 93C10, 93C85, 93D21, cs.RO, cs.SY, eess.SY, math.OC | Perch like a bird: bio-inspired optimal maneuvers and nonlinear control for Flapping-Wing Unmanned Aerial Vehicles はコメントを受け付けていません

Vote-Tree-Planner: Optimizing Execution Order in LLM-based Task Planning Pipeline via Voting

要約

大規模な言語モデル(LLMS)を閉ループロボットタスク計画に統合することは、具体化された人工知能内でますます人気が高まっています。
以前の取り組みは、主にLLMSの強力な推論能力を活用してタスク計画のパフォーマンスを強化することに焦点を当てており、LLMSへの繰り返しクエリのためにタスク計画の効率と実行可能性を見落とすことがよくありました。
このペーパーでは、LLMSとタスク計画システム間の相乗効果に対処し、計画の有効性を高めながら冗長性を最小限に抑えることを目指しています。
具体的には、Prog-PromptとTree-Plannerの高レベルの概念に基づいて、投票Tree-Plannerを提案します。
このサンプリング戦略は、投票を利用して、意思決定プロセス中に計画のトラバーサルを導きます。
私たちのアプローチは、単純な観察によって動機付けられています。意思決定中にエージェントに重みを割り当てることで、実行前に重要なパスの評価が可能になります。
この単純な投票ツリー構造により、この方法は成功率をさらに改善し、LLMSのクエリの数を減らします。
実験結果は、投票ツリープランナーがより大きな安定性を示し、以前のベースライン方法と比較して目に見えないデータセットでの平均成功率と目標条件のリコールを示していることを強調しています。
これらの調査結果は、LLMベースの計画システムの計画の正確性、信頼性、効率性を高めるための投票ツリープランナーの可能性を強調しています。

要約(オリジナル)

Integrating large language models (LLMs) into closed-loop robotic task planning has become increasingly popular within embodied artificial intelligence. Previous efforts mainly focused on leveraging the strong reasoning abilities of LLMs to enhance task planning performance while often overlooking task planning efficiency and executability due to repetitive queries to LLMs. This paper addresses the synergy between LLMs and task planning systems, aiming to minimize redundancy while enhancing planning effectiveness. Specifically, building upon Prog-Prompt and the high-level concept of Tree-Planner, we propose Vote-Tree-Planner. This sampling strategy utilizes votes to guide plan traversal during the decision-making process. Our approach is motivated by a straightforward observation: assigning weights to agents during decision-making enables the evaluation of critical paths before execution. With this simple vote-tree construction, our method further improves the success rate and reduces the number of queries to LLMs. The experimental results highlight that our Vote-Tree-Planner demonstrates greater stability and shows a higher average success rate and goal condition recall on the unseen dataset compared with previous baseline methods. These findings underscore the potential of the Vote-Tree-Planner to enhance planning accuracy, reliability, and efficiency in LLM-based planning systems.

arxiv情報

著者 Chaoyuan Zhang,Zhaowei Li,Wentao Yuan
発行日 2025-02-13 20:08:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Vote-Tree-Planner: Optimizing Execution Order in LLM-based Task Planning Pipeline via Voting はコメントを受け付けていません

FRTree Planner: Robot Navigation in Cluttered and Unknown Environments with Tree of Free Regions

要約

この作業では、狭い通路を持つ散らかった未知の環境でナビゲーション用に設計された自由領域のツリー構造を活用する新しいロボットナビゲーションフレームワークであるFrtree Plannerを提示します。
このフレームワークは、リアルタイムの知覚情報を継続的に組み込んで、異なるナビゲーションオプションを識別し、ツリーを探索可能で横断可能な方向に動的に拡張します。
この動的に構築されたツリーは、衝突のない空間の幾何学的およびトポロジ情報を徐々にエンコードし、中間目標の効率的な選択を可能にし、行き止まりの状況をナビゲートし、以前のマップなしで動的障害を回避します。
重要なことに、私たちの方法は、オンライン再生中に自由領域とロボット間の幾何学的関係の包括的な分析を実行します。
特に、プランナーは、ロボットのジオメトリに基づいて候補パッセージのアクセシビリティを評価し、アクセス可能な狭いパッセージを通じて最も実行可能な中間目標の効果的な選択を促進し、不要な迂回を最小限に抑えます。
自由な地域情報を特定の幾何学を備えたロボットに合わせたバイレベルの軌道最適化と組み合わせることにより、閉じ込められたスペースで堅牢で適応性のある障害物回避戦略を生成します。
広範なシミュレーションと現実世界の実験を通じて、Frtreeは、狭いギャップを備えた高度に乱雑で未知の地形を通じて、安全で効率的なモーションプランを生成する際のベンチマーク方法よりも優位性を示しています。

要約(オリジナル)

In this work, we present FRTree planner, a novel robot navigation framework that leverages a tree structure of free regions, specifically designed for navigation in cluttered and unknown environments with narrow passages. The framework continuously incorporates real-time perceptive information to identify distinct navigation options and dynamically expands the tree toward explorable and traversable directions. This dynamically constructed tree incrementally encodes the geometric and topological information of the collision-free space, enabling efficient selection of the intermediate goals, navigating around dead-end situations, and avoidance of dynamic obstacles without a prior map. Crucially, our method performs a comprehensive analysis of the geometric relationship between free regions and the robot during online replanning. In particular, the planner assesses the accessibility of candidate passages based on the robot’s geometries, facilitating the effective selection of the most viable intermediate goals through accessible narrow passages while minimizing unnecessary detours. By combining the free region information with a bi-level trajectory optimization tailored for robots with specific geometries, our approach generates robust and adaptable obstacle avoidance strategies in confined spaces. Through extensive simulations and real-world experiments, FRTree demonstrates its superiority over benchmark methods in generating safe, efficient motion plans through highly cluttered and unknown terrains with narrow gaps.

arxiv情報

著者 Yulin Li,Zhicheng Song,Chunxin Zheng,Zhihai Bi,Kai Chen,Michael Yu Wang,Jun Ma
発行日 2025-02-13 20:42:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FRTree Planner: Robot Navigation in Cluttered and Unknown Environments with Tree of Free Regions はコメントを受け付けていません

Adaptive Teaming in Multi-Drone Pursuit: Simulation, Training, and Deployment

要約

適応的なチームは、事前の調整なしに目に見えないチームメイトと協力する能力であり、マルチロボットコラボレーションにおける露出不足の課題のままです。
このペーパーでは、マルチドローン協同組合の適応チーム化に焦点を当てています。これは、国境監視、捜索救助、テロ対策などの現実世界のアプリケーションを伴う重要なタスクです。
最初に\ textbf {a}ダプティブチームを\ textbf {m} ulti- \ textbf {d} rone \ textbf {p} ursuit(at-mdp)問題で定義し、形式化し、AT-MDPフレームワークを紹介します。
シミュレーション、アルゴリズムトレーニング、実世界の展開を統合します。
AT-MDPフレームワークは、シミュレーション用の柔軟な実験構成とインターフェイス、広範なアルゴリズム動物園(2つの新たに提案されたベースラインメソッドを含む)を備えた分散トレーニングフレームワーク、および適応型チームを評価するための目に見えないドローン動物園を提供し、実際の展開システムと同様に、目に見えないドローン動物園を提供します。
エッジコンピューティングとクレイジーフリードローンを利用します。
私たちの知る限り、AT-MDPフレームワークは、複雑な実世界のドローンタスクにおける継続的なアクションの意思決定のための最初の適応フレームワークであり、複数のドローンが目に見えないチームメイトと効果的に調整できるようにします。
増加する困難の4つのマルチドローン追跡環境での広範な実験は、AT-MDPフレームワークの有効性を確認しますが、実際の展開は物理システムでの実現可能性をさらに検証します。
ビデオとコードはhttps://sites.google.com/view/at-mdpで入手できます。

要約(オリジナル)

Adaptive teaming, the ability to collaborate with unseen teammates without prior coordination, remains an underexplored challenge in multi-robot collaboration. This paper focuses on adaptive teaming in multi-drone cooperative pursuit, a critical task with real-world applications such as border surveillance, search-and-rescue, and counter-terrorism. We first define and formalize the \textbf{A}daptive Teaming in \textbf{M}ulti-\textbf{D}rone \textbf{P}ursuit (AT-MDP) problem and introduce AT-MDP framework, a comprehensive framework that integrates simulation, algorithm training and real-world deployment. AT-MDP framework provides a flexible experiment configurator and interface for simulation, a distributed training framework with an extensive algorithm zoo (including two newly proposed baseline methods) and an unseen drone zoo for evaluating adaptive teaming, as well as a real-world deployment system that utilizes edge computing and Crazyflie drones. To the best of our knowledge, AT-MDP framework is the first adaptive framework for continuous-action decision-making in complex real-world drone tasks, enabling multiple drones to coordinate effectively with unseen teammates. Extensive experiments in four multi-drone pursuit environments of increasing difficulty confirm the effectiveness of AT-MDP framework, while real-world deployments further validate its feasibility in physical systems. Videos and code are available at https://sites.google.com/view/at-mdp.

arxiv情報

著者 Yang Li,Junfan Chen,Feng Xue,Jiabin Qiu,Wenbin Li,Qingrui Zhang,Ying Wen,Wei Pan
発行日 2025-02-13 20:45:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Adaptive Teaming in Multi-Drone Pursuit: Simulation, Training, and Deployment はコメントを受け付けていません

TOP-ERL: Transformer-based Off-Policy Episodic Reinforcement Learning

要約

この作業では、ERLフレームワークでオフポリシーの更新を可能にする新しいアルゴリズムである、変圧器ベースのポリシーオフポリシーエピソード補強学習(TOP-ERL)を紹介します。
ERLでは、ポリシーは、毎回単一のアクションではなく、複数の時間ステップでアクション全体の軌跡を予測します。
これらの軌道は通常、運動プリミティブ(MP)などの軌跡ジェネレーターによってパラメーター化され、高レベルの時間的相関をキャプチャしながら、長い視野にわたってスムーズで効率的な探索を可能にします。
ただし、ERLメソッドは、アクションシーケンス全体の状態アクション値を評価し、サンプルの効率を制限し、より効率的なポリシーアーキテクチャの使用を防ぐことが難しいため、多くの場合、ポリシーのフレームワークに制約されます。
Top-ERLは、長いアクションシーケンスをセグメント化し、変圧器ベースの批評家アーキテクチャを使用してN-STEPリターン推定を使用して各セグメントの状態アクション値を推定することにより、この欠点に対処します。
これらの貢献により、洗練されたロボット学習環境で行われた経験的結果に反映される効率的で安定したトレーニングが生じます。
Top-erlは、最先端のRLメソッドを大幅に上回ります。
さらに、徹底的なアブレーション研究は、モデルのパフォーマンスに対する主要な設計の選択の影響をさらに示しています。

要約(オリジナル)

This work introduces Transformer-based Off-Policy Episodic Reinforcement Learning (TOP-ERL), a novel algorithm that enables off-policy updates in the ERL framework. In ERL, policies predict entire action trajectories over multiple time steps instead of single actions at every time step. These trajectories are typically parameterized by trajectory generators such as Movement Primitives (MP), allowing for smooth and efficient exploration over long horizons while capturing high-level temporal correlations. However, ERL methods are often constrained to on-policy frameworks due to the difficulty of evaluating state-action values for entire action sequences, limiting their sample efficiency and preventing the use of more efficient off-policy architectures. TOP-ERL addresses this shortcoming by segmenting long action sequences and estimating the state-action values for each segment using a transformer-based critic architecture alongside an n-step return estimation. These contributions result in efficient and stable training that is reflected in the empirical results conducted on sophisticated robot learning environments. TOP-ERL significantly outperforms state-of-the-art RL methods. Thorough ablation studies additionally show the impact of key design choices on the model performance.

arxiv情報

著者 Ge Li,Dong Tian,Hongyi Zhou,Xinkai Jiang,Rudolf Lioutikov,Gerhard Neumann
発行日 2025-02-13 22:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | TOP-ERL: Transformer-based Off-Policy Episodic Reinforcement Learning はコメントを受け付けていません

Vision-based Geo-Localization of Future Mars Rotorcraft in Challenging Illumination Conditions

要約

航空資産を使用した惑星探査は、火星に関する前例のない科学的発見の可能性があります。
NASAの火星ヘリコプターの創意工夫は火星の大気への飛行が可能であることを証明しましたが、将来の火星のロトクラフトには、長距離便に高度なナビゲーション機能が必要です。
このような重要な機能の1つは、視覚臭トから累積ドリフトを緩和するために、飛行中にオンボード画像を参照マップに登録するMAPベースのローカリゼーション(MBL)です。
ただし、ロトクラフトの観測と参照マップの間の照明の違いは、従来のMBLシステムに挑戦的であることが証明されており、車両の運用ウィンドウが制限されます。
この作業では、新しいMBLシステムを調査し、Geo-Loftrを提案します。Geo-Loftrは、以前のモデルよりも大きな照明の違いの下でより堅牢な画像登録の幾何学的な深い学習モデルです。
このシステムは、実際の軌道マップを使用して火星の地形の大量の現実的な画像を作成するカスタムシミュレーションフレームワークによってサポートされています。
包括的な評価は、私たちの提案されたシステムが、大幅な照明とスケールのバリエーションの下でのローカリゼーションの精度の観点から、以前のMBLの取り組みよりも優れていることを示しています。
さらに、シミュレートされた火星の日におけるアプローチの妥当性を示します。

要約(オリジナル)

Planetary exploration using aerial assets has the potential for unprecedented scientific discoveries on Mars. While NASA’s Mars helicopter Ingenuity proved flight in Martian atmosphere is possible, future Mars rotocrafts will require advanced navigation capabilities for long-range flights. One such critical capability is Map-based Localization (MbL) which registers an onboard image to a reference map during flight in order to mitigate cumulative drift from visual odometry. However, significant illumination differences between rotocraft observations and a reference map prove challenging for traditional MbL systems, restricting the operational window of the vehicle. In this work, we investigate a new MbL system and propose Geo-LoFTR, a geometry-aided deep learning model for image registration that is more robust under large illumination differences than prior models. The system is supported by a custom simulation framework that uses real orbital maps to produce large amounts of realistic images of the Martian terrain. Comprehensive evaluations show that our proposed system outperforms prior MbL efforts in terms of localization accuracy under significant lighting and scale variations. Furthermore, we demonstrate the validity of our approach across a simulated Martian day.

arxiv情報

著者 Dario Pisanti,Robert Hewitt,Roland Brockers,Georgios Georgakis
発行日 2025-02-13 22:10:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Vision-based Geo-Localization of Future Mars Rotorcraft in Challenging Illumination Conditions はコメントを受け付けていません

Suture Thread Modeling Using Control Barrier Functions for Autonomous Surgery

要約

手術システムを自動化すると、高リスクの環境への人間の関与を減らしながら、精度と安全性が向上します。
縫合などの外科的処置を自動化する上での主要な課題は、非常に柔軟で準拠したコンポーネントである縫合スレッドを正確にモデル化することです。
既存のモデルは、安全性の重要な手順に必要な精度を欠いているか、リアルタイムの実行には計算的に集中しすぎています。
この作業では、コントロールバリア関数(CBF)を使用して縫合スレッドのダイナミクスをモデル化するための新しいアプローチを紹介し、リアリズムと計算効率の両方を達成します。
スレッドのような動作、衝突回避、剛性、減衰はすべて、統一されたCBFおよび制御リアプノフ関数(CLF)フレームワーク内でモデル化されます。
私たちのアプローチは、複雑な力を計算したり、微分方程式を解決したりする必要性を排除し、自動化と仮想現実外科トレーニングシステムの両方に適した現実的なモデルを維持しながら、計算オーバーヘッドを大幅に削減します。
また、このフレームワークでは、スレッドと環境との相互作用に基づいて視覚的な手がかりを提供し、縫合またはライゲーションタスクを実行する際のユーザーエクスペリエンスを向上させることができます。
提案されたモデルは、磁場を使用して縫合針を操作する最小限のロボット外科プラットフォームである磁気式システムでテストされ、外科的処置のための侵襲性の低い溶液を提供します。

要約(オリジナル)

Automating surgical systems enhances precision and safety while reducing human involvement in high-risk environments. A major challenge in automating surgical procedures like suturing is accurately modeling the suture thread, a highly flexible and compliant component. Existing models either lack the accuracy needed for safety critical procedures or are too computationally intensive for real time execution. In this work, we introduce a novel approach for modeling suture thread dynamics using control barrier functions (CBFs), achieving both realism and computational efficiency. Thread like behavior, collision avoidance, stiffness, and damping are all modeled within a unified CBF and control Lyapunov function (CLF) framework. Our approach eliminates the need to calculate complex forces or solve differential equations, significantly reducing computational overhead while maintaining a realistic model suitable for both automation and virtual reality surgical training systems. The framework also allows visual cues to be provided based on the thread’s interaction with the environment, enhancing user experience when performing suture or ligation tasks. The proposed model is tested on the MagnetoSuture system, a minimally invasive robotic surgical platform that uses magnetic fields to manipulate suture needles, offering a less invasive solution for surgical procedures.

arxiv情報

著者 Kimia Forghani,Suraj Raval,Lamar Mair,Axel Krieger,Yancy Diaz-Mercado
発行日 2025-02-13 23:13:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Suture Thread Modeling Using Control Barrier Functions for Autonomous Surgery はコメントを受け付けていません

PUGS: Perceptual Uncertainty for Grasp Selection in Underwater Environments

要約

感覚情報が不完全で不完全な挑戦的な環境でナビゲートおよび相互作用する場合、ロボットはこれらの欠点を説明する決定を下す必要があります。
占有の不確実性の推定による3D再構成におけるこのような知覚的不確実性を定量化および表現するための新しい方法を提案します。
私たちは、水中環境での自律操作のための選択にそれを把握するためのフレームワークを開発します。
どの場所を把握するかを決定する際に各測定を均等に扱う代わりに、マルチビューの再構成プロセスに固有の不確実性を把握選択に伝播するフレームワークを提示します。
シミュレートされたデータと現実世界の両方のデータを使用して方法を評価し、不確実性を考慮することにより、把握選択が部分的で騒々しい測定に対して堅牢になることを示しています。
コードはhttps://onurbagoren.github.io/pugs/で利用可能になります

要約(オリジナル)

When navigating and interacting in challenging environments where sensory information is imperfect and incomplete, robots must make decisions that account for these shortcomings. We propose a novel method for quantifying and representing such perceptual uncertainty in 3D reconstruction through occupancy uncertainty estimation. We develop a framework to incorporate it into grasp selection for autonomous manipulation in underwater environments. Instead of treating each measurement equally when deciding which location to grasp from, we present a framework that propagates uncertainty inherent in the multi-view reconstruction process into the grasp selection. We evaluate our method with both simulated and the real world data, showing that by accounting for uncertainty, the grasp selection becomes robust against partial and noisy measurements. Code will be made available at https://onurbagoren.github.io/PUGS/

arxiv情報

著者 Onur Bagoren,Marc Micatka,Katherine A. Skinner,Aaron Marburg
発行日 2025-02-13 23:41:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PUGS: Perceptual Uncertainty for Grasp Selection in Underwater Environments はコメントを受け付けていません

Efficient Evaluation of Multi-Task Robot Policies With Active Experiment Selection

要約

学習したロボット制御ポリシーを評価して、物理的なタスクレベルの機能を決定するために、実験者の時間と労力を費やします。
ますます多くのポリシーとタスクがこの問題を悪化させます。
すべてのタスクのすべてのポリシーを複数回テストすることは非現実的です。
各トライアルには手動環境のリセットが必要であり、各タスクの変更には、オブジェクトの再配置またはロボットの変更さえ含まれます。
評価するタスクとポリシーのランダムサブセットを素朴に選択することは、信頼できない、不完全な結果を伴う高コストのソリューションです。
この作業では、アクティブなテストの問題としてロボット評価を策定します。
実験を順次実行する際に、すべてのタスクとポリシーにわたるロボット性能の分布をモデル化することを提案します。
タスクは、多くの場合、政策行動における潜在的な関係を明らかにする可能性のある類似点を共有します。また、自然言語は、タスク間のこれらの関係をモデル化する上で有用であることを示しています。
次に、この定式化を活用して、コスト認識の予想情報ゲインヒューリスティックを使用して、有益な試験を効率的に選択することにより、実験者の努力を減らします。
私たちのフレームワークは、連続的および個別のパフォーマンスの両方の成果に対応しています。
実際のロボットとシミュレーションからの既存の評価データに関する実験を実施します。
有益な試験に優先順位を付けることにより、私たちのフレームワークは、多くのタスクにわたるロボットポリシーの評価メトリックを計算するコストを削減します。

要約(オリジナル)

Evaluating learned robot control policies to determine their physical task-level capabilities costs experimenter time and effort. The growing number of policies and tasks exacerbates this issue. It is impractical to test every policy on every task multiple times; each trial requires a manual environment reset, and each task change involves re-arranging objects or even changing robots. Naively selecting a random subset of tasks and policies to evaluate is a high-cost solution with unreliable, incomplete results. In this work, we formulate robot evaluation as an active testing problem. We propose to model the distribution of robot performance across all tasks and policies as we sequentially execute experiments. Tasks often share similarities that can reveal potential relationships in policy behavior, and we show that natural language is a useful prior in modeling these relationships between tasks. We then leverage this formulation to reduce the experimenter effort by using a cost-aware expected information gain heuristic to efficiently select informative trials. Our framework accommodates both continuous and discrete performance outcomes. We conduct experiments on existing evaluation data from real robots and simulations. By prioritizing informative trials, our framework reduces the cost of calculating evaluation metrics for robot policies across many tasks.

arxiv情報

著者 Abrar Anwar,Rohan Gupta,Zain Merchant,Sayan Ghosh,Willie Neiswanger,Jesse Thomason
発行日 2025-02-14 00:07:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Efficient Evaluation of Multi-Task Robot Policies With Active Experiment Selection はコメントを受け付けていません