要約
Vision-Language-action(VLA)モデルは、視覚、言語、および固有受容のモダリティを共同で活用してアクション軌道を生成することにより、一般主義ロボットポリシーとして有望であることを示しています。
最近のベンチマークでは、国内のタスクにおけるVLAの高度な研究がありますが、専門的な科学志向のドメインは依存していないままです。
生物学の実験室環境でロボット自動化を評価するために設計されたシミュレーションフレームワークとベンチマークであるAutobioを紹介します。これは、構造化されたプロトコルと厳しい精度とマルチモーダルの相互作用を組み合わせたアプリケーションドメインです。
Autobioは、現実世界の実験室機器、実験室ワークフローに遍在するメカニズムのための特殊な物理プラグイン、および物理的に基づくレンダリングを通じて動的機器インターフェイスと透過材料をサポートするレンダリングスタックをデジタル化するためのパイプラインを通じて、既存のシミュレーション機能を拡張します。
私たちのベンチマークは、3つの難易度レベルにまたがる生物学的に接地されたタスクで構成され、実験プロトコルにおける言語誘導ロボット操作の標準化された評価を可能にします。
デモンストレーションの生成とVLAモデルとのシームレスな統合のためのインフラストラクチャを提供します。
2つのSOTA VLAモデルを使用したベースライン評価は、科学的ワークフローでの正確な操作、視覚的推論、および指導における重要なギャップを明らかにしています。
Autobioをリリースすることにより、複雑な、高精度、およびマルチモーダルの専門環境のためのジェネラリストロボットシステムに関する研究を触媒することを目指しています。
シミュレーターとベンチマークは、再現可能な研究を促進するために公開されています。
要約(オリジナル)
Vision-language-action (VLA) models have shown promise as generalist robotic policies by jointly leveraging visual, linguistic, and proprioceptive modalities to generate action trajectories. While recent benchmarks have advanced VLA research in domestic tasks, professional science-oriented domains remain underexplored. We introduce AutoBio, a simulation framework and benchmark designed to evaluate robotic automation in biology laboratory environments–an application domain that combines structured protocols with demanding precision and multimodal interaction. AutoBio extends existing simulation capabilities through a pipeline for digitizing real-world laboratory instruments, specialized physics plugins for mechanisms ubiquitous in laboratory workflows, and a rendering stack that support dynamic instrument interfaces and transparent materials through physically based rendering. Our benchmark comprises biologically grounded tasks spanning three difficulty levels, enabling standardized evaluation of language-guided robotic manipulation in experimental protocols. We provide infrastructure for demonstration generation and seamless integration with VLA models. Baseline evaluations with two SOTA VLA models reveal significant gaps in precision manipulation, visual reasoning, and instruction following in scientific workflows. By releasing AutoBio, we aim to catalyze research on generalist robotic systems for complex, high-precision, and multimodal professional environments. The simulator and benchmark are publicly available to facilitate reproducible research.
arxiv情報
著者 | Zhiqian Lan,Yuxuan Jiang,Ruiqi Wang,Xuanbing Xie,Rongkui Zhang,Yicheng Zhu,Peihang Li,Tianshuo Yang,Tianxing Chen,Haoyu Gao,Xiaokang Yang,Xuelong Li,Hongyuan Zhang,Yao Mu,Ping Luo |
発行日 | 2025-05-29 01:50:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google