Efficient Precision-Scalable Hardware for Microscaling (MX) Processing in Robotics Learning

要約

自律的なロボットには、クラウド依存関係のない新しい環境に適応するために、効率的なオンデバイス学習が必要です。
このエッジトレーニングでは、顕微鏡(MX)データ型は、整数と浮動点表現と共有指数を組み合わせて、精度を維持しながらエネルギー消費を削減することにより、有望なソリューションを提供します。
ただし、最先端の連続学習プロセッサ、すなわちDACAPOは、MXINTのみのサポートとバックプロパゲーション中の非効率的なベクターベースのグループ化により、制限に直面しています。
この論文では、私たちの知る限り、2つの重要な革新でこれらの制限に対処する最初の作業を提示します。(1)サブワード並列性と統一された整数とフローティングポイント処理を活用することにより、6つのMXデータ型すべてをサポートする精密スケーラブルな算術ユニット。
(2)バックプロパゲーション中に効率的な重量処理を可能にする正方形の共有指数グループのサポート、ストレージの冗長性と量子化オーバーヘッドを削除します。
500MHzのTSMC 16nm Finfetテクノロジーの4つのロボット工学ワークロードのISOピークスループットでDACAPOに対して設計を評価し、25.6%の面積削減、51%の低いメモリフットプリント、および4倍の効果的なトレーニングスループットに到達しながら、比較可能なエネルギー効率を達成し、エッジを継続的に学習します。

要約(オリジナル)

Autonomous robots require efficient on-device learning to adapt to new environments without cloud dependency. For this edge training, Microscaling (MX) data types offer a promising solution by combining integer and floating-point representations with shared exponents, reducing energy consumption while maintaining accuracy. However, the state-of-the-art continuous learning processor, namely Dacapo, faces limitations with its MXINT-only support and inefficient vector-based grouping during backpropagation. In this paper, we present, to the best of our knowledge, the first work that addresses these limitations with two key innovations: (1) a precision-scalable arithmetic unit that supports all six MX data types by exploiting sub-word parallelism and unified integer and floating-point processing; and (2) support for square shared exponent groups to enable efficient weight handling during backpropagation, removing storage redundancy and quantization overhead. We evaluate our design against Dacapo under iso-peak-throughput on four robotics workloads in TSMC 16nm FinFET technology at 500MHz, reaching a 25.6% area reduction, a 51% lower memory footprint, and 4x higher effective training throughput while achieving comparable energy-efficiency, enabling efficient robotics continual learning at the edge.

arxiv情報

著者 Stef Cuyckens,Xiaoling Yi,Nitish Satya Murthy,Chao Fang,Marian Verhelst
発行日 2025-05-28 14:34:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.RO | Efficient Precision-Scalable Hardware for Microscaling (MX) Processing in Robotics Learning はコメントを受け付けていません

GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

要約

世界モデルの最近の進歩は、動的環境シミュレーションに革命をもたらし、システムが将来の状態を予見し、潜在的な行動を評価できるようになりました。
自律運転では、これらの能力は、車両が他の道路利用者の行動を予測し、リスク認識計画を実行し、シミュレーションのトレーニングを加速し、新しいシナリオに適応し、それにより安全性と信頼性を高めるのに役立ちます。
現在のアプローチは、自律的なナビゲーションタスクでの信頼できる安全性評価に重要な、閉塞処理中に堅牢な3D幾何学的一貫性または蓄積アーティファクトを維持する際に欠陥を示します。
これに対処するために、Geodriveを導入します。これは、堅牢な3Dジオメトリ条件を世界モデルの駆動に明示的に統合して、空間的理解とアクションの制御性を高めます。
具体的には、最初に入力フレームから3D表現を抽出し、次にユーザー指定のエゴカー軌道に基づいて2Dレンダリングを取得します。
動的モデリングを有効にするために、トレーニング中に動的編集モジュールを提案して、車両の位置を編集してレンダリングを強化します。
広範な実験は、私たちの方法が、アクション精度と3D空間認識の両方で既存のモデルを大幅に上回り、より安全で適応性のある、信頼性の高い自律運転のためのより現実的で適応性があり、信頼性の高いシーンモデリングにつながることを示しています。
さらに、モデルは新しい軌道に一般化し、オブジェクトの編集やオブジェクトの軌跡コントロールなどのインタラクティブなシーン編集機能を提供できます。

要約(オリジナル)

Recent advancements in world models have revolutionized dynamic environment simulation, allowing systems to foresee future states and assess potential actions. In autonomous driving, these capabilities help vehicles anticipate the behavior of other road users, perform risk-aware planning, accelerate training in simulation, and adapt to novel scenarios, thereby enhancing safety and reliability. Current approaches exhibit deficiencies in maintaining robust 3D geometric consistency or accumulating artifacts during occlusion handling, both critical for reliable safety assessment in autonomous navigation tasks. To address this, we introduce GeoDrive, which explicitly integrates robust 3D geometry conditions into driving world models to enhance spatial understanding and action controllability. Specifically, we first extract a 3D representation from the input frame and then obtain its 2D rendering based on the user-specified ego-car trajectory. To enable dynamic modeling, we propose a dynamic editing module during training to enhance the renderings by editing the positions of the vehicles. Extensive experiments demonstrate that our method significantly outperforms existing models in both action accuracy and 3D spatial awareness, leading to more realistic, adaptable, and reliable scene modeling for safer autonomous driving. Additionally, our model can generalize to novel trajectories and offers interactive scene editing capabilities, such as object editing and object trajectory control.

arxiv情報

著者 Anthony Chen,Wenzhao Zheng,Yida Wang,Xueyang Zhang,Kun Zhan,Peng Jia,Kurt Keutzer,Shangbang Zhang
発行日 2025-05-28 14:46:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control はコメントを受け付けていません

Zero-Shot 3D Visual Grounding from Vision-Language Models

要約

3D Visual Grounding(3DVG)は、自然言語の説明を使用して3Dシーンでターゲットオブジェクトを見つけようとしており、拡張現実やロボット工学などのダウンストリームアプリケーションを可能にします。
既存のアプローチは、通常、ラベル付きの3Dデータと事前定義されたカテゴリに依存しており、オープンワールド設定のスケーラビリティを制限します。
2Dビジョン言語モデル(VLM)を活用して、3D固有のトレーニングの必要性をバイパスするゼロショット3DVGフレームワークであるSeegroundを紹介します。
モダリティギャップを埋めるために、クエリに整列したレンダリングされたビューを空間的に濃縮したテキスト説明とペアにするハイブリッド入力形式を導入します。
フレームワークには、クエリに基づいて最適な視点を動的に選択するパースペクティブ適応モジュールと、視覚的および空間的信号を統合してローカリゼーション精度を強化する融合アライメントモジュールの2つのコアコンポーネントが組み込まれています。
ScanreferとNR3Dの広範な評価は、Seegroundが既存のゼロショットベースライン(それぞれ7.7%と7.1%を上回る)よりも大幅な改善を達成することを確認し、ライバルは完全に監督された代替案でさえ、困難な条件下での強い一般化を実証します。

要約(オリジナル)

3D Visual Grounding (3DVG) seeks to locate target objects in 3D scenes using natural language descriptions, enabling downstream applications such as augmented reality and robotics. Existing approaches typically rely on labeled 3D data and predefined categories, limiting scalability to open-world settings. We present SeeGround, a zero-shot 3DVG framework that leverages 2D Vision-Language Models (VLMs) to bypass the need for 3D-specific training. To bridge the modality gap, we introduce a hybrid input format that pairs query-aligned rendered views with spatially enriched textual descriptions. Our framework incorporates two core components: a Perspective Adaptation Module that dynamically selects optimal viewpoints based on the query, and a Fusion Alignment Module that integrates visual and spatial signals to enhance localization precision. Extensive evaluations on ScanRefer and Nr3D confirm that SeeGround achieves substantial improvements over existing zero-shot baselines — outperforming them by 7.7% and 7.1%, respectively — and even rivals fully supervised alternatives, demonstrating strong generalization under challenging conditions.

arxiv情報

著者 Rong Li,Shijie Li,Lingdong Kong,Xulei Yang,Junwei Liang
発行日 2025-05-28 14:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Zero-Shot 3D Visual Grounding from Vision-Language Models はコメントを受け付けていません

COSMOS: A Data-Driven Probabilistic Time Series simulator for Chemical Plumes across Spatial Scales

要約

自動化された環境監視アプリケーションのための堅牢な臭気ナビゲーション戦略の開発には、大きな空間スケールを横切って移動するエージェントの臭気時系列の現実的なシミュレーションが必要です。
計算流体ダイナミクス(CFD)メソッドに依存する従来のアプローチは、臭気プルームの時空間的ダイナミクスをキャプチャできますが、計算費用のために大規模なシミュレーションでは非現実的です。
一方、パフベースのシミュレーションは、大規模なスケールに対して計算的に扱いやすく、プルームの確率的性質を捉えることができますが、自然主義的な臭気統計を再現できません。
ここでは、実際のデータセットの空間的および時間的特徴から現実的な匂いの時系列を合成するデータ駆動型の確率的フレームワークであるCOSMOS(スケーラブルなスペースを介して構成可能な臭気シミュレーションモデル)を提示します。
COSMOSは、実際のデータで観察されたように、WHIFF頻度、持続時間、濃度などの主要な統計的特徴の同様の分布を生成し、計算オーバーヘッドを劇的に削減します。
さまざまなフローレジームとスケールにわたって重要な統計的特性を再現することにより、COSMOは、自然主義的な臭気経験を備えたエージェントベースのナビゲーション戦略の開発と評価を可能にします。
その有用性を実証するために、CFD生成されたプルームとCOSMOSシミュレーションにさらされた臭気追跡剤を比較し、臭気の経験と結果として生じる行動の両方が非常に類似していることを示しています。

要約(オリジナル)

The development of robust odor navigation strategies for automated environmental monitoring applications requires realistic simulations of odor time series for agents moving across large spatial scales. Traditional approaches that rely on computational fluid dynamics (CFD) methods can capture the spatiotemporal dynamics of odor plumes, but are impractical for large-scale simulations due to their computational expense. On the other hand, puff-based simulations, although computationally tractable for large scales and capable of capturing the stochastic nature of plumes, fail to reproduce naturalistic odor statistics. Here, we present COSMOS (Configurable Odor Simulation Model over Scalable Spaces), a data-driven probabilistic framework that synthesizes realistic odor time series from spatial and temporal features of real datasets. COSMOS generates similar distributions of key statistical features such as whiff frequency, duration, and concentration as observed in real data, while dramatically reducing computational overhead. By reproducing critical statistical properties across a variety of flow regimes and scales, COSMOS enables the development and evaluation of agent-based navigation strategies with naturalistic odor experiences. To demonstrate its utility, we compare odor-tracking agents exposed to CFD-generated plumes versus COSMOS simulations, showing that both their odor experiences and resulting behaviors are quite similar.

arxiv情報

著者 Arunava Nag,Floris van Breugel
発行日 2025-05-28 15:00:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, stat.AP | COSMOS: A Data-Driven Probabilistic Time Series simulator for Chemical Plumes across Spatial Scales はコメントを受け付けていません

Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks

要約

この作業では、ロボット操作の分野での監視されていないビジョン言語アクションマッピングに焦点を当てています。
最近、このタスクのために、事前に訓練された大規模な言語モデルとビジョンモデルを採用する複数のアプローチが提案されています。
しかし、それらは計算的に要求が厳しく、生成された出力の慎重な微調整が必​​要です。
より軽量な代替手段は、データの潜在的な特徴を抽出して共同表現に統合できるマルチモーダル変異自動エンコーダー(VAE)の実装です。
ここでは、シミュレートされた環境での監視されていないロボット操作タスクでマルチモーダルのvaesを使用できるかどうか、どのように採用できるかを調査します。
得られた結果に基づいて、シミュレーターのモデルのパフォーマンスを最大55%改善するモデル不変のトレーニングの代替案を提案します。
さらに、オブジェクトやロボットの位置の変動性、ディストラクタの数、またはタスクの長さなどの個々のタスクによって提起された課題を体系的に評価します。
したがって、私たちの仕事は、ビジョンと言語に基づいたロボット運動軌跡の監視されていない学習のために現在のマルチモーダルVAEを使用することの潜在的な利点と制限にも光を当てています。

要約(オリジナル)

In this work, we focus on unsupervised vision-language-action mapping in the area of robotic manipulation. Recently, multiple approaches employing pre-trained large language and vision models have been proposed for this task. However, they are computationally demanding and require careful fine-tuning of the produced outputs. A more lightweight alternative would be the implementation of multimodal Variational Autoencoders (VAEs) which can extract the latent features of the data and integrate them into a joint representation, as has been demonstrated mostly on image-image or image-text data for the state-of-the-art models. Here we explore whether and how can multimodal VAEs be employed in unsupervised robotic manipulation tasks in a simulated environment. Based on the obtained results, we propose a model-invariant training alternative that improves the models’ performance in a simulator by up to 55%. Moreover, we systematically evaluate the challenges raised by the individual tasks such as object or robot position variability, number of distractors or the task length. Our work thus also sheds light on the potential benefits and limitations of using the current multimodal VAEs for unsupervised learning of robotic motion trajectories based on vision and language.

arxiv情報

著者 Gabriela Sejnova,Michal Vavrecka,Karla Stepanova
発行日 2025-05-28 15:24:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks はコメントを受け付けていません

Fully Packed and Ready to Go: High-Density, Rearrangement-Free, Grid-Based Storage and Retrieval

要約

均一な形状の荷重(容器、パレット、トート)を備えたグリッドベースのストレージシステムは、物流、産業、輸送のドメインでは一般的です。
このようなシステムの重要なパフォーマンスメトリックは、スペース使用率の最大化であり、他のものの後ろまたはより下にいくつかの負荷を配置する必要があり、それらへの直接アクセスを妨げる必要があります。
その結果、密なストレージ設定は、検索中に必要な費用のかかる再配置の努力を最小限に抑えながら、負荷を配置する方法を決定するという課題を引き起こします。
このペーパーでは、負荷が到着するインバウンドフェーズを含む設定を検討し、その後、負荷が出発するアウトバウンドフェーズが続きます。
この設定は、流通センター、自動駐車場、コンテナポートで一般的です。
両方のフェーズで、再配置アクションの数を最小化すると、より最適な(例:高速、エネルギー効率など)操作が発生します。
スタックベースのシステムに焦点を当てた以前の作業とは対照的に、この取り組みは、モバイルロボットによってグリッドに沿って自由に負荷を移動できる場合を検証し、可能な動きの範囲を拡大します。
荷重の到着シーケンスや狭い開口部を備えたグリッドの予備知識が限られているなど、さまざまなシナリオで、負荷がグリッドをその容量に満たしたときを含む(可能な限り最良の)再配置のないソリューションが常に存在することを確立します。
特に、シーケンスが完全にわかっている場合、グリッドの開いた側(ストレージへのアクセスに使用)が少なくとも3セル幅である場合にのみ、再配置を常に回避できることを示す興味深い特性評価を確立します。
さらに、ソリューションの有用な実用的な意味合いについて説明します。

要約(オリジナル)

Grid-based storage systems with uniformly shaped loads (e.g., containers, pallets, totes) are commonplace in logistics, industrial, and transportation domains. A key performance metric for such systems is the maximization of space utilization, which requires some loads to be placed behind or below others, preventing direct access to them. Consequently, dense storage settings bring up the challenge of determining how to place loads while minimizing costly rearrangement efforts necessary during retrieval. This paper considers the setting involving an inbound phase, during which loads arrive, followed by an outbound phase, during which loads depart. The setting is prevalent in distribution centers, automated parking garages, and container ports. In both phases, minimizing the number of rearrangement actions results in more optimal (e.g., fast, energy-efficient, etc.) operations. In contrast to previous work focusing on stack-based systems, this effort examines the case where loads can be freely moved along the grid, e.g., by a mobile robot, expanding the range of possible motions. We establish that for a range of scenarios, such as having limited prior knowledge of the loads’ arrival sequences or grids with a narrow opening, a (best possible) rearrangement-free solution always exists, including when the loads fill the grid to its capacity. In particular, when the sequences are fully known, we establish an intriguing characterization showing that rearrangement can always be avoided if and only if the open side of the grid (used to access the storage) is at least 3 cells wide. We further discuss useful practical implications of our solutions.

arxiv情報

著者 Tzvika Geft,Kostas Bekris,Jingjin Yu
発行日 2025-05-28 15:47:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.RO | Fully Packed and Ready to Go: High-Density, Rearrangement-Free, Grid-Based Storage and Retrieval はコメントを受け付けていません

AutoBio: A Simulation and Benchmark for Robotic Automation in Digital Biology Laboratory

要約

Vision-Language-action(VLA)モデルは、視覚、言語、および固有受容のモダリティを共同で活用してアクション軌道を生成することにより、一般主義ロボットポリシーとして有望であることを示しています。
最近のベンチマークでは、国内のタスクにおけるVLAの高度な研究がありますが、専門的な科学志向のドメインは依存していないままです。
生物学の実験室環境でロボット自動化を評価するために設計されたシミュレーションフレームワークとベンチマークであるAutobioを紹介します。これは、構造化されたプロトコルと厳しい精度とマルチモーダルの相互作用を組み合わせたアプリケーションドメインです。
Autobioは、現実世界の実験室機器、実験室ワークフローに遍在するメカニズムのための特殊な物理プラグイン、および物理的に基づくレンダリングを通じて動的機器インターフェイスと透過材料をサポートするレンダリングスタックをデジタル化するためのパイプラインを通じて、既存のシミュレーション機能を拡張します。
私たちのベンチマークは、3つの難易度レベルにまたがる生物学的に接地されたタスクで構成され、実験プロトコルにおける言語誘導ロボット操作の標準化された評価を可能にします。
デモンストレーションの生成とVLAモデルとのシームレスな統合のためのインフラストラクチャを提供します。
2つのSOTA VLAモデルを使用したベースライン評価は、科学的ワークフローでの正確な操作、視覚的推論、および指導における重要なギャップを明らかにしています。
Autobioをリリースすることにより、複雑な、高精度、およびマルチモーダルの専門環境のためのジェネラリストロボットシステムに関する研究を触媒することを目指しています。
シミュレーターとベンチマークは、再現可能な研究を促進するために公開されています。

要約(オリジナル)

Vision-language-action (VLA) models have shown promise as generalist robotic policies by jointly leveraging visual, linguistic, and proprioceptive modalities to generate action trajectories. While recent benchmarks have advanced VLA research in domestic tasks, professional science-oriented domains remain underexplored. We introduce AutoBio, a simulation framework and benchmark designed to evaluate robotic automation in biology laboratory environments–an application domain that combines structured protocols with demanding precision and multimodal interaction. AutoBio extends existing simulation capabilities through a pipeline for digitizing real-world laboratory instruments, specialized physics plugins for mechanisms ubiquitous in laboratory workflows, and a rendering stack that support dynamic instrument interfaces and transparent materials through physically based rendering. Our benchmark comprises biologically grounded tasks spanning three difficulty levels, enabling standardized evaluation of language-guided robotic manipulation in experimental protocols. We provide infrastructure for demonstration generation and seamless integration with VLA models. Baseline evaluations with two SOTA VLA models reveal significant gaps in precision manipulation, visual reasoning, and instruction following in scientific workflows. By releasing AutoBio, we aim to catalyze research on generalist robotic systems for complex, high-precision, and multimodal professional environments. The simulator and benchmark are publicly available to facilitate reproducible research.

arxiv情報

著者 Zhiqian Lan,Yuxuan Jiang,Ruiqi Wang,Xuanbing Xie,Rongkui Zhang,Yicheng Zhu,Peihang Li,Tianshuo Yang,Tianxing Chen,Haoyu Gao,Xiaokang Yang,Xuelong Li,Hongyuan Zhang,Yao Mu,Ping Luo
発行日 2025-05-28 16:17:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | AutoBio: A Simulation and Benchmark for Robotic Automation in Digital Biology Laboratory はコメントを受け付けていません

Spot-On: A Mixed Reality Interface for Multi-Robot Cooperation

要約

複合現実(MR)とロボット工学の最近の進歩により、ますます洗練された形態の人間ロボットコラボレーションが可能になりました。
これらの開発に基づいて、MRインターフェイスを介して、複数の四足動物のロボットが意味的に多様な環境で動作できるようにする新しいMRフレームワークを紹介します。
当社のシステムは、引き出し、スイングドア、ライトスイッチなどの高レベルのインフラストラクチャを含む共同タスクをサポートしています。
包括的なユーザー調査は、アプリの設計と使いやすさの両方を検証し、参加者はほとんどすべての場合に「良い」または「非常に良い」評価を与えます。
全体として、私たちのアプローチは、複雑で実世界のシナリオでのMRベースのマルチロボットコラボレーションのための効果的で直感的なフレームワークを提供します。

要約(オリジナル)

Recent progress in mixed reality (MR) and robotics is enabling increasingly sophisticated forms of human-robot collaboration. Building on these developments, we introduce a novel MR framework that allows multiple quadruped robots to operate in semantically diverse environments via a MR interface. Our system supports collaborative tasks involving drawers, swing doors, and higher-level infrastructure such as light switches. A comprehensive user study verifies both the design and usability of our app, with participants giving a ‘good’ or ‘very good’ rating in almost all cases. Overall, our approach provides an effective and intuitive framework for MR-based multi-robot collaboration in complex, real-world scenarios.

arxiv情報

著者 Tim Engelbracht,Petar Lukovic,Tjark Behrens,Kai Lascheit,René Zurbrügg,Marc Pollefeys,Hermann Blum,Zuria Bauer
発行日 2025-05-28 16:23:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Spot-On: A Mixed Reality Interface for Multi-Robot Cooperation はコメントを受け付けていません

VR-Based Control of Multi-Copter Operation

要約

私たちは、仮想現実(VR)を使用して、オンボードセンサーを使用してドローンの周りの環境をリアルタイムでスキャンし、この環境のライブストリーミングをVRヘッドセットに使用し、パイロットのドローンとその環境の仮想表現をレンダリングすることにより、パイロットの空間認識を改善することを目指しています。
このようにして、パイロットは、ほとんどのドローンカメラが提供する一人称の視点とは対照的に、サードパーソンの観点からドローンの直接の環境を見ることができます。
これにより、既存のテレオ操作ソリューションよりもドローンを操作しながら、パイロットのドローン周囲に関するより多くの情報が提供されます。
VRを使用した以前のソリューションは、環境の事前に作られた設計に依存しているため、変化する環境に適応することが困難です。
対照的に、私たちのソリューションは、飛ぶときに環境をスキャンし、未知の環境での使用に柔軟に対応します。

要約(オリジナル)

We aim to use virtual reality (VR) to improve the spatial awareness of pilots by real-time scanning of the environment around the drone using onboard sensors, live streaming of this environment to a VR headset, and rendering a virtual representation of the drone and its environment for the pilot. This way, the pilot can see the immediate environment of the drone up close from a third-person perspective, as opposed to the first-person perspective that most drone cameras provide. This provides much more information about the drone surroundings for the pilot while operating the drone than existing teleoperation solutions. Previous solutions using VR have relied upon pre-made designs of the environment, which makes it difficult to adapt to changing environments. Our solution, in contrast, scans the environment as you fly, making it much more flexible for use in unknown environments.

arxiv情報

著者 Jack T. Hughes,Mohammad Ghufran,Hossein Rastgoftar
発行日 2025-05-28 17:14:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VR-Based Control of Multi-Copter Operation はコメントを受け付けていません

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents

要約

科学的具体化されたエージェントは、複雑な実験ワークフローを自動化することにより、現代の研究所で重要な役割を果たします。
典型的な家庭環境と比較して、実験室の設定は、身体化学的変換と長老計画の認識に大幅に高い要求を課し、具体化された知性を進めるための理想的なテストベッドになります。
しかし、その開発は、適切なシミュレーターとベンチマークの欠如によって長い間妨げられてきました。
この論文では、このギャップに対処し、Labutopiaを導入し、包括的なシミュレーションとベンチマークスイートを、実験室の設定で一般化可能な推論可能な具体化されたエージェントの開発を促進するように設計されています。
具体的には、多物理と化学的に意味のある相互作用をサポートする高忠実度シミュレーターであるi)Labsimを統合します。
ii)Labscene、多様な科学シーンのためのスケーラブルな手続き型ジェネレーター。
およびiii)ラブベンチ、原子作用から長距離モバイル操作までの5つのレベルの複雑さに及ぶ階層的なベンチマーク。
Labutopiaは、30の異なるタスクをサポートし、200を超えるシーンおよび楽器資産が含まれており、高級環境での大規模なトレーニングと原則的な評価を可能にします。
Labutopiaは、科学的目的のエージェントにおける知覚、計画、および制御の統合を進めるための強力なプラットフォームを提供し、将来の研究における具体化された知性の実用的な能力と一般化の限界を調査するための厳密なテストベッドを提供することを実証します。

要約(オリジナル)

Scientific embodied agents play a crucial role in modern laboratories by automating complex experimental workflows. Compared to typical household environments, laboratory settings impose significantly higher demands on perception of physical-chemical transformations and long-horizon planning, making them an ideal testbed for advancing embodied intelligence. However, its development has been long hampered by the lack of suitable simulator and benchmarks. In this paper, we address this gap by introducing LabUtopia, a comprehensive simulation and benchmarking suite designed to facilitate the development of generalizable, reasoning-capable embodied agents in laboratory settings. Specifically, it integrates i) LabSim, a high-fidelity simulator supporting multi-physics and chemically meaningful interactions; ii) LabScene, a scalable procedural generator for diverse scientific scenes; and iii) LabBench, a hierarchical benchmark spanning five levels of complexity from atomic actions to long-horizon mobile manipulation. LabUtopia supports 30 distinct tasks and includes more than 200 scene and instrument assets, enabling large-scale training and principled evaluation in high-complexity environments. We demonstrate that LabUtopia offers a powerful platform for advancing the integration of perception, planning, and control in scientific-purpose agents and provides a rigorous testbed for exploring the practical capabilities and generalization limits of embodied intelligence in future research.

arxiv情報

著者 Rui Li,Zixuan Hu,Wenxi Qu,Jinouwen Zhang,Zhenfei Yin,Sha Zhang,Xuantuo Huang,Hanqing Wang,Tai Wang,Jiangmiao Pang,Wanli Ouyang,Lei Bai,Wangmeng Zuo,Ling-Yu Duan,Dongzhan Zhou,Shixiang Tang
発行日 2025-05-28 17:50:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SE | LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents はコメントを受け付けていません