Predictability Awareness for Efficient and Robust Multi-Agent Coordination

要約

マルチエージェント設定のモーション計画の問題を安全かつ効率的に解決するために、ほとんどのアプローチは、他のエージェントでトリガーされた応答を明示的に説明する共同最適化を解決しようとします。
これにより、指数関数的な計算の複雑さを伴うソリューションが発生することが多く、これらの方法は、多くのエージェントとの複雑なシナリオに扱いにくいものになります。
シーケンシャルな予測と計画のアプローチはよりスケーラブルですが、非常にインタラクティブな環境ではパフォーマンスが低下する傾向があります。
このペーパーでは、最適化目標として予測可能性を導入することにより、マルチエージェントナビゲーション問題におけるシーケンシャルな予測と計画のインタラクティブな機能を改善する方法を提案します。
エージェントが自分自身を予測し、これらの外部予測とどのように整合するかを推定できるようにすることにより、一般的な予測モデルを使用して予測可能性を解釈します。
システムのフリーエネルギーを通じてこの動作を正式に導入します。これは、計画と予測の間のカルバック繰り返しの相違の適切な境界の下で減少し、予測不可能な軌跡のペナルティとしてこれを使用します。
この予測可能性対応計画が、より低コストの軌跡につながり、ヒトドライバーデータを使用した自律運転実験を含む一連のマルチロボット問題の計画努力を減らす方法を示します。ここでは、予測可能性を考慮することの利点がこの戦略を使用している場合でも適用されることを示します。

要約(オリジナル)

To safely and efficiently solve motion planning problems in multi-agent settings, most approaches attempt to solve a joint optimization that explicitly accounts for the responses triggered in other agents. This often results in solutions with an exponential computational complexity, making these methods intractable for complex scenarios with many agents. While sequential predict-and-plan approaches are more scalable, they tend to perform poorly in highly interactive environments. This paper proposes a method to improve the interactive capabilities of sequential predict-and-plan methods in multi-agent navigation problems by introducing predictability as an optimization objective. We interpret predictability through the use of general prediction models, by allowing agents to predict themselves and estimate how they align with these external predictions. We formally introduce this behavior through the free-energy of the system, which reduces under appropriate bounds to the Kullback-Leibler divergence between plan and prediction, and use this as a penalty for unpredictable trajectories.The proposed interpretation of predictability allows agents to more robustly leverage prediction models, and fosters a soft social convention that accelerates agreement on coordination strategies without the need of explicit high level control or communication. We show how this predictability-aware planning leads to lower-cost trajectories and reduces planning effort in a set of multi-robot problems, including autonomous driving experiments with human driver data, where we show that the benefits of considering predictability apply even when only the ego-agent uses this strategy.

arxiv情報

著者 Roman Chiva Gil,Daniel Jarne Ornia,Khaled A. Mustafa,Javier Alonso Mora
発行日 2025-06-10 08:18:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Adaptive path planning for efficient object search by UAVs in agricultural fields

要約

このペーパーでは、UAVを使用して農業分野でのオブジェクト検索の適応パスプランナーを紹介します。
パスプランナーは、高度のカバレッジフライトパスを使用し、検出ネットワークが不確かな場合、追加の低高度検査を計画しています。
パスプランナーは、実際の画像を含むオフラインシミュレーション環境で評価されました。
Yolov8検出ネットワークを訓練して、草原に配置された人工植物を検出して、パスプランナーの可能性を紹介しました。
さまざまな検出の確実性測定の効果を評価し、パス計画パラメーターを最適化し、局在エラーの効果と、フィールド内の異なる数のオブジェクトを調査しました。
Yolov8検出信頼性は、真と偽陽性の検出を区別するために最適に機能したため、適応プランナーで使用されました。
パスプランナーの最適なパラメーターは、フィールド内のオブジェクトの分布に依存していました。
オブジェクトが均一に分布している場合、オブジェクトの不均一な分布と比較して、より低い高度検査が必要であり、その結果、経路の長さが長くなりました。
適応プランナーは、ローカリゼーションの不確実性に対して堅牢であることが証明されました。
オブジェクトの数を増やすと、特にオブジェクトが均一に分布している場合、飛行経路の長さが増加しました。
オブジェクトが不均一に分布している場合、適応パスプランナーは、多数のオブジェクトであっても、低高度のカバレッジパスよりも短いパスを生成しました。
全体として、提示された適応パスプランナーは、カバレッジパスプランナーよりも速いフィールドで不均一な分散オブジェクトを見つけることを可能にし、互換性のある検出精度をもたらしました。
パスプランナーはhttps://github.com/wur-abe/uav_adaptive_plannerで利用可能になります。

要約(オリジナル)

This paper presents an adaptive path planner for object search in agricultural fields using UAVs. The path planner uses a high-altitude coverage flight path and plans additional low-altitude inspections when the detection network is uncertain. The path planner was evaluated in an offline simulation environment containing real-world images. We trained a YOLOv8 detection network to detect artificial plants placed in grass fields to showcase the potential of our path planner. We evaluated the effect of different detection certainty measures, optimized the path planning parameters, investigated the effects of localization errors, and different numbers of objects in the field. The YOLOv8 detection confidence worked best to differentiate between true and false positive detections and was therefore used in the adaptive planner. The optimal parameters of the path planner depended on the distribution of objects in the field. When the objects were uniformly distributed, more low-altitude inspections were needed compared to a non-uniform distribution of objects, resulting in a longer path length. The adaptive planner proved to be robust against localization uncertainty. When increasing the number of objects, the flight path length increased, especially when the objects were uniformly distributed. When the objects were non-uniformly distributed, the adaptive path planner yielded a shorter path than a low-altitude coverage path, even with a high number of objects. Overall, the presented adaptive path planner allowed finding non-uniformly distributed objects in a field faster than a coverage path planner and resulted in a compatible detection accuracy. The path planner is made available at https://github.com/wur-abe/uav_adaptive_planner.

arxiv情報

著者 Rick van Essen,Eldert van Henten,Lammert Kooistra,Gert Kootstra
発行日 2025-06-10 08:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Noise Analysis and Hierarchical Adaptive Body State Estimator For Biped Robot Walking With ESVC Foot

要約

人間の足のロールオーバー形状に触発されたロボットフットデザインであるESVC(楕円ベースのセグメント変化する曲率)足は、ロボットウォーキング歩行のエネルギー効率を大幅に向上させます。
ただし、サポートレッグの傾きにより、接触モデルの誤差が増幅され、ロボット状態の推定がより困難になります。
したがって、このペーパーでは、ESVCフットで歩くロボットのノイズ分析と状態推定に焦点を当てています。
まず、物理的なロボット実験を通じて、ESVCフットのロボット測定ノイズとプロセスノイズに対する効果を調査します。
スライドウィンドウ戦略を使用したノイズタイム回帰モデルが開発されています。
次に、ESVCフットを備えた2倍のロボットの階層的適応状態推定器が提案されています。
状態推定器は、前推定と挙動後の2つの段階で構成されています。
推定前の段階では、感覚データを処理するためにデータ融合ベースの推定が採用されています。
推定後、質量中心の加速が最初に推定され、次にノイズ共分散行列が回帰モデルに基づいて調整されます。
それに続いて、EKF(拡張カルマンフィルター)ベースのアプローチが適用され、ロボットウォーキング中の重心状態を推定します。
物理的実験は、ESVCフットで歩く二重型ロボットの提案された適応状態推定器が、EKFと適応型EKFの両方よりも高い精度を提供するだけでなく、さまざまな騒音条件下でより速く収束することを示しています。

要約(オリジナル)

The ESVC(Ellipse-based Segmental Varying Curvature) foot, a robot foot design inspired by the rollover shape of the human foot, significantly enhances the energy efficiency of the robot walking gait. However, due to the tilt of the supporting leg, the error of the contact model are amplified, making robot state estimation more challenging. Therefore, this paper focuses on the noise analysis and state estimation for robot walking with the ESVC foot. First, through physical robot experiments, we investigate the effect of the ESVC foot on robot measurement noise and process noise. and a noise-time regression model using sliding window strategy is developed. Then, a hierarchical adaptive state estimator for biped robots with the ESVC foot is proposed. The state estimator consists of two stages: pre-estimation and post-estimation. In the pre-estimation stage, a data fusion-based estimation is employed to process the sensory data. During post-estimation, the acceleration of center of mass is first estimated, and then the noise covariance matrices are adjusted based on the regression model. Following that, an EKF(Extended Kalman Filter) based approach is applied to estimate the centroid state during robot walking. Physical experiments demonstrate that the proposed adaptive state estimator for biped robot walking with the ESVC foot not only provides higher precision than both EKF and Adaptive EKF, but also converges faster under varying noise conditions.

arxiv情報

著者 Boyang Chen,Xizhe Zang,Chao Song,Yue Zhang,Xuehe Zhang,Jie Zhao
発行日 2025-06-10 08:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

LMRPA: Large Language Model-Driven Efficient Robotic Process Automation for OCR

要約

このペーパーでは、光学文字認識(OCR)タスクの効率と速度を大幅に改善するように設計された、新しい大規模なモデル駆動型ロボットプロセス自動化(RPA)モデルであるLMRPAを紹介します。
従来のRPAプラットフォームは、OCRのような大量の繰り返しプロセスを処理する際にパフォーマンスのボトルネックに悩まされることが多く、より効率的で時間のかかるプロセスにつながります。
LMRPAは、大規模な言語モデル(LLMS)の統合を可能にし、抽出されたテキストの精度と読みやすさを改善し、曖昧な文字と複雑なテキスト構造によってもたらされる課題を克服しました。
結果は、LMRPAが優れたパフォーマンスを達成し、処理時間を最大52 \%削減します。
たとえば、Tesseract OCRタスクのバッチ2では、LMRPAは9.8秒でプロセスを完了し、Uipathは18.1秒で終了し、自動化は18.7秒で終了しました。
同様の改善が教義で観察されました。そこでは、LMRPAが12.7秒でタスクを完了することで同じプロセスを実行する他の自動化ツールを上回り、競合他社は同じことをするのに20秒以上かかりました。
これらの調査結果は、LMRPAがOCR駆動型の自動化プロセスに革命をもたらす可能性を強調し、既存の最先端のRPAモデルに対してより効率的で効果的な代替ソリューションを提供します。

要約(オリジナル)

This paper introduces LMRPA, a novel Large Model-Driven Robotic Process Automation (RPA) model designed to greatly improve the efficiency and speed of Optical Character Recognition (OCR) tasks. Traditional RPA platforms often suffer from performance bottlenecks when handling high-volume repetitive processes like OCR, leading to a less efficient and more time-consuming process. LMRPA allows the integration of Large Language Models (LLMs) to improve the accuracy and readability of extracted text, overcoming the challenges posed by ambiguous characters and complex text structures.Extensive benchmarks were conducted comparing LMRPA to leading RPA platforms, including UiPath and Automation Anywhere, using OCR engines like Tesseract and DocTR. The results are that LMRPA achieves superior performance, cutting the processing times by up to 52\%. For instance, in Batch 2 of the Tesseract OCR task, LMRPA completed the process in 9.8 seconds, where UiPath finished in 18.1 seconds and Automation Anywhere finished in 18.7 seconds. Similar improvements were observed with DocTR, where LMRPA outperformed other automation tools conducting the same process by completing tasks in 12.7 seconds, while competitors took over 20 seconds to do the same. These findings highlight the potential of LMRPA to revolutionize OCR-driven automation processes, offering a more efficient and effective alternative solution to the existing state-of-the-art RPA models.

arxiv情報

著者 Osama Hosam Abdellaif,Abdelrahman Nader,Ali Hamdi
発行日 2025-06-10 09:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DL, cs.HC, cs.RO, cs.SE | コメントする

Modular Recurrence in Contextual MDPs for Universal Morphology Control

要約

ロボットの形態のユニバーサルコントローラーは、計算効率とデータ効率を大幅に改善します。
個々のロボットの特性に関するコンテキスト情報を利用し、深い補強学習エージェントのアーキテクチャでモジュラー構造を活用することにより、マルチロボット制御に向けてステップがなされました。
しかし、目に見えない新しいロボットへの一般化は依然として課題です。
この論文では、関連するコンテキスト情報は部分的に観察可能であるが、トレーニング中に見られないコンテキストへのより良い一般化のために相互作用を通じて推測できると仮定します。
この程度まで、モジュール式再発アーキテクチャを実装し、ムホコロロボットの大規模なセットでその一般化パフォーマンスを評価します。
結果は、4つの異なる環境で、目に見えないダイナミクス、運動学、およびトポロジを備えたロボットのパフォーマンスが大幅に向上したことを示しています。

要約(オリジナル)

A universal controller for any robot morphology would greatly improve computational and data efficiency. By utilizing contextual information about the properties of individual robots and exploiting their modular structure in the architecture of deep reinforcement learning agents, steps have been made towards multi-robot control. Generalization to new, unseen robots, however, remains a challenge. In this paper we hypothesize that the relevant contextual information is partially observable, but that it can be inferred through interactions for better generalization to contexts that are not seen during training. To this extent, we implement a modular recurrent architecture and evaluate its generalization performance on a large set of MuJoCo robots. The results show a substantial improved performance on robots with unseen dynamics, kinematics, and topologies, in four different environments.

arxiv情報

著者 Laurens Engwegen,Daan Brinks,Wendelin Böhmer
発行日 2025-06-10 09:44:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Deep Reinforcement Learning-Based Motion Planning and PDE Control for Flexible Manipulators

要約

この記事では、柔軟なロボットマニピュレーターのモーションプランニングおよび制御フレームワークを紹介し、ディープ補強学習(DRL)を非線形部分微分方程式(PDE)コントローラーと統合します。
制御のみに焦点を当てた従来のアプローチとは異なり、目的の軌道がエンドポイントの振動に大きく影響することを実証します。
これに対処するために、Soft Actor-Critic(SAC)アルゴリズムを使用して訓練されたDRLモーションプランナーは、振動を本質的に最小限に抑える最適化された軌跡を生成します。
PDE非線形コントローラーは、リアプノフ分析を使用して閉ループの安定性を確保しながら、計画された軌道を追跡するために必要なトルクを計算します。
提案された方法論は、シミュレーションと実際の実験の両方を通じて検証され、従来の方法と比較して優れた振動抑制と追跡精度を示しています。
結果は、柔軟なロボットマニピュレーターの精度と安定性を高めるための学習ベースのモーション計画とモデルベースの制御を組み合わせる可能性を強調しています。

要約(オリジナル)

This article presents a motion planning and control framework for flexible robotic manipulators, integrating deep reinforcement learning (DRL) with a nonlinear partial differential equation (PDE) controller. Unlike conventional approaches that focus solely on control, we demonstrate that the desired trajectory significantly influences endpoint vibrations. To address this, a DRL motion planner, trained using the soft actor-critic (SAC) algorithm, generates optimized trajectories that inherently minimize vibrations. The PDE nonlinear controller then computes the required torques to track the planned trajectory while ensuring closed-loop stability using Lyapunov analysis. The proposed methodology is validated through both simulations and real-world experiments, demonstrating superior vibration suppression and tracking accuracy compared to traditional methods. The results underscore the potential of combining learning-based motion planning with model-based control for enhancing the precision and stability of flexible robotic manipulators.

arxiv情報

著者 Amir Hossein Barjini,Seyed Adel Alizadeh Kolagar,Sadeq Yaqubi,Jouni Mattila
発行日 2025-06-10 09:53:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math-ph, math.MP | コメントする

Interior Point Differential Dynamic Programming, Redux

要約

非線形制約を備えた離散時間、有限層最適制御問題(OCP)を解くための構造抽出アルゴリズムであるIPDDP2を提示します。
不等式の制約は、原始二重の内部ポイントの定式化を使用して処理され、平等制約のステップ受け入れはライン検索フィルターアプローチに従います。
アルゴリズムの反復は、微分動的プログラミング(DDP)フレームワークの下で導出されます。
IPDDP2反復液の局所的な2次収束の証明が提供されます。
私たちの数値実験は、5つの異なるクラスのロボットモーション計画の問題に由来する500を超えるOCPでIPDDP2を評価します。
IPDDP2は、接触型計画のための既存の制約付きDDPアルゴリズムに対する堅牢性の改善を示し、汎用ソルバーIPOPTよりも大幅に高速です。
Juliaプログラミング言語でIPDDP2の完全な実装を提供します。

要約(オリジナル)

We present IPDDP2, a structure-exploiting algorithm for solving discrete-time, finite-horizon optimal control problems (OCPs) with nonlinear constraints. Inequality constraints are handled using a primal-dual interior point formulation and step acceptance for equality constraints follows a line-search filter approach. The iterates of the algorithm are derived under the Differential Dynamic Programming (DDP) framework. A proof of local quadratic convergence of the IPDDP2 iterates is provided. Our numerical experiments evaluate IPDDP2 on over 500 OCPs derived from five different classes of robotic motion planning problems, three of which are contact-implicit trajectory optimisation problems. IPDDP2 demonstrates improvements in robustness against existing constrained DDP algorithms for contact-implicit planning, while being significantly faster than general-purpose solver IPOPT. We provide a full implementation of IPDDP2 in the Julia programming language.

arxiv情報

著者 Ming Xu,Stephen Gould,Iman Shames
発行日 2025-06-10 09:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | コメントする

DemoSpeedup: Accelerating Visuomotor Policies via Entropy-Guided Demonstration Acceleration

要約

模倣学習はロボット操作に大きな約束を示していますが、ポリシーの実行は、一般的に人間のオペレーターによって収集された遅刻のデモのために、しばしば不十分に遅くなります。
この作業では、エントロピー誘導デモンストレーションの加速を介して視覚運動政策の実行を加速するための自己監視方法であるDemospeedupを提示します。
Demospeedupは、通常のスピードデモンストレーションに関するarbitrary意的な生成ポリシー(ACTまたは拡散ポリシーなど)のトレーニングから始まります。これは、フレームごとのアクションエントロピー推定器として機能します。
重要な洞察は、より低いアクションエントロピー推定のフレームが、より一貫したポリシー行動を必要とすることです。
対照的に、より高いエントロピー推定値を持つフレームは、よりカジュアルなセクションに対応するため、より安全に加速することができます。
したがって、推定されたエントロピーに従って元のデモをセグメント化し、エントロピー値とともに増加する速度でダウンサンプリングすることにより、それらを加速します。
スピードアップデモンストレーションでトレーニングされた結果、結果のポリシーは、タスクの完了パフォーマンスを維持しながら、最大3倍高速で実行されます。
興味深いことに、これらのポリシーは、意思決定の地平線が減少することの利点により、通常の速度デモンストレーションで訓練されたポリシーよりも高い成功率を達成することさえできます。
プロジェクトページ:https://demospeedup.github.io/

要約(オリジナル)

Imitation learning has shown great promise in robotic manipulation, but the policy’s execution is often unsatisfactorily slow due to commonly tardy demonstrations collected by human operators. In this work, we present DemoSpeedup, a self-supervised method to accelerate visuomotor policy execution via entropy-guided demonstration acceleration. DemoSpeedup starts from training an arbitrary generative policy (e.g., ACT or Diffusion Policy) on normal-speed demonstrations, which serves as a per-frame action entropy estimator. The key insight is that frames with lower action entropy estimates call for more consistent policy behaviors, which often indicate the demands for higher-precision operations. In contrast, frames with higher entropy estimates correspond to more casual sections, and therefore can be more safely accelerated. Thus, we segment the original demonstrations according to the estimated entropy, and accelerate them by down-sampling at rates that increase with the entropy values. Trained with the speedup demonstrations, the resulting policies execute up to 3 times faster while maintaining the task completion performance. Interestingly, these policies could even achieve higher success rates than those trained with normal-speed demonstrations, due to the benefits of reduced decision-making horizons. Project Page: https://demospeedup.github.io/

arxiv情報

著者 Lingxiao Guo,Zhengrong Xue,Zijing Xu,Huazhe Xu
発行日 2025-06-10 10:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

ROS-related Robotic Systems Development with V-model-based Application of MeROS Metamodel

要約

ロボットシステムがますます複雑になり、不均一で、安全性が高くなるにつれて、構造化された開発方法論の必要性が最も重要になります。
ロボットオペレーティングシステム(ROS)やモデルベースのシステムエンジニアリング(MBSE)などのフレームワークは、基礎ツールを提供しますが、一緒に使用すると統合が不足していることがよくあります。
このペーパーでは、ROSベースのシステムに合わせて調整されたMerosメタモデルSYSMLベースのモデリング言語と広く認識されているVモデル開発パラダイムを整列させることにより、そのギャップに対処します。
ROS中心のモデリングをシステムエンジニアリングの実践に橋渡しするドメイン固有の方法論を提案します。
私たちのアプローチは、Merosを使用してロボットシステムの構造、動作、および検証プロセスを形式化し、ROSとROS 2の両方と互換性のある一般化された適応可能なVモデルで拡張します。固定手順を処方するのではなく、このアプローチはプロジェクト固有の柔軟性と再利用をサポートし、開発のすべての段階にわたってガイダンスを提供します。
このアプローチは、マニピュレーター、モバイルユニット、動的テスト環境で構成される異種のマルチロボットプラットフォームであるHerosに関する包括的なケーススタディを通じて検証されます。
この例は、Meros互換のVモデルが、将来の適応のためにアクセスしやすく拡張可能なままでありながら、トレーサビリティとシステムの一貫性をどのように強化するかを示しています。
この作業は、ROSベースのプロジェクトでMBSEプラクティスを適用しようとしている開発者と研究者のための構造化されたツールに依存しない基盤に貢献しています。

要約(オリジナル)

As robotic systems grow increasingly complex, heterogeneous, and safety-critical, the need for structured development methodologies becomes paramount. Although frameworks like the Robot Operating System (ROS) and Model-Based Systems Engineering (MBSE) offer foundational tools, they often lack integration when used together. This paper addresses that gap by aligning the widely recognized V-model development paradigm with the MeROS metamodel SysML-based modeling language tailored for ROS-based systems. We propose a domain-specific methodology that bridges ROS-centric modelling with systems engineering practices. Our approach formalises the structure, behaviour, and validation processes of robotic systems using MeROS, while extending it with a generalized, adaptable V-model compatible with both ROS and ROS 2. Rather than prescribing a fixed procedure, the approach supports project-specific flexibility and reuse, offering guidance across all stages of development. The approach is validated through a comprehensive case study on HeROS, a heterogeneous multi-robot platform comprising manipulators, mobile units, and dynamic test environments. This example illustrates how the MeROS-compatible V-model enhances traceability and system consistency while remaining accessible and extensible for future adaptation. The work contributes a structured, tool-agnostic foundation for developers and researchers seeking to apply MBSE practices in ROS-based projects.

arxiv情報

著者 Tomasz Winiarski,Jan Kaniuka,Daniel Giełdowski,Jakub Ostrysz,Krystian Radlak,Dmytro Kushnir
発行日 2025-06-10 11:44:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly

要約

ビジョン言語モデル(VLM)は、具体化されたエージェントの推論と計画において有望な能力を実証していますが、特に構造化された3D環境内で物理現象を理解する能力は非常に限られたままです。
このギャップを埋めるために、ロボット3Dブロックアセンブリタスクを介して物理的理解と計画に関するVLMSを評価するために設計されたプログレッシブベンチマークであるPhyblockを紹介します。
Phyblockは、ターゲットを絞った視覚的質問(VQA)サンプルとともに、新しい4レベルの認知階層アセンブリタスクを統合します。
Phyblockには、2600のブロックタスク(400のアセンブリタスク、2200 VQAタスク)が含まれており、3つの重要な次元にわたってモデルを評価します。
21の最先端のVLMをベンチマークし、物理的に接地されたマルチステップ計画におけるその強みと制限を強調しています。
私たちの経験的調査結果は、VLMSのパフォーマンスが高レベルの計画と推論能力に顕著な制限を示し、タスクの複雑さの増大のパフォーマンスの顕著な低下につながることを示しています。
エラー分析により、空間方向と依存性推論の持続的な困難が明らかになります。
驚くべきことに、チェーンオブ考えのプロンプトは最小限の改善を提供し、空間的なタスクが直感的なモデルの理解に大きく依存していることを示唆しています。
Phyblockを統一されたテストベッドとして位置付け、具体化された推論を進め、視覚言語の理解と現実世界の身体的問題解決を埋めます。

要約(オリジナル)

While vision-language models (VLMs) have demonstrated promising capabilities in reasoning and planning for embodied agents, their ability to comprehend physical phenomena, particularly within structured 3D environments, remains severely limited. To close this gap, we introduce PhyBlock, a progressive benchmark designed to assess VLMs on physical understanding and planning through robotic 3D block assembly tasks. PhyBlock integrates a novel four-level cognitive hierarchy assembly task alongside targeted Visual Question Answering (VQA) samples, collectively aimed at evaluating progressive spatial reasoning and fundamental physical comprehension, including object properties, spatial relationships, and holistic scene understanding. PhyBlock includes 2600 block tasks (400 assembly tasks, 2200 VQA tasks) and evaluates models across three key dimensions: partial completion, failure diagnosis, and planning robustness. We benchmark 21 state-of-the-art VLMs, highlighting their strengths and limitations in physically grounded, multi-step planning. Our empirical findings indicate that the performance of VLMs exhibits pronounced limitations in high-level planning and reasoning capabilities, leading to a notable decline in performance for the growing complexity of the tasks. Error analysis reveals persistent difficulties in spatial orientation and dependency reasoning. Surprisingly, chain-of-thought prompting offers minimal improvements, suggesting spatial tasks heavily rely on intuitive model comprehension. We position PhyBlock as a unified testbed to advance embodied reasoning, bridging vision-language understanding and real-world physical problem-solving.

arxiv情報

著者 Liang Ma,Jiajun Wen,Min Lin,Rongtao Xu,Xiwen Liang,Bingqian Lin,Jun Ma,Yongxin Wang,Ziming Wei,Haokun Lin,Mingfei Han,Meng Cao,Bokui Chen,Ivan Laptev,Xiaodan Liang
発行日 2025-06-10 11:46:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする