要約
Vision-Language-active(VLA)モデルは、視覚的および言語的入力をロボットアクションに変換することにより、ジェネラリストのロボティクスソリューションとして有望ですが、ブラックボックスの性質と環境変化に対する感受性のために信頼性がありません。
対照的に、認知アーキテクチャ(CA)は象徴的な推論と状態監視に優れていますが、剛性の事前定義された実行によって制約されます。
この作業は、オブジェクトの特性、関係、およびアクション状態の象徴的な表現を明らかにするためにOpenVLAの隠れた層を調査することにより、これらのアプローチを橋渡しし、CAとの統合を解釈性と堅牢性を高めるために可能にします。
Libero-Spatial Pick-and-Placeタスクに関する実験を通じて、OpenVLAのLlamaバックボーンのさまざまな層にわたるシンボリック状態のエンコードを分析します。
私たちの調査結果は、ほとんどのレイヤーでオブジェクトとアクションの両方の状態で一貫して高い精度(> 0.90)を示していますが、私たちの仮説に反して、アクション状態よりも早くエンコードされているオブジェクト状態の予想されるパターンは観察しませんでした。
リアルタイムの状態監視のためにこれらの象徴的な表現を活用する統合されたDIARC-OpenVLAシステムを実証し、より解釈可能で信頼性の高いロボット操作の基礎を築きます。
要約(オリジナル)
Vision-language-action (VLA) models hold promise as generalist robotics solutions by translating visual and linguistic inputs into robot actions, yet they lack reliability due to their black-box nature and sensitivity to environmental changes. In contrast, cognitive architectures (CA) excel in symbolic reasoning and state monitoring but are constrained by rigid predefined execution. This work bridges these approaches by probing OpenVLA’s hidden layers to uncover symbolic representations of object properties, relations, and action states, enabling integration with a CA for enhanced interpretability and robustness. Through experiments on LIBERO-spatial pick-and-place tasks, we analyze the encoding of symbolic states across different layers of OpenVLA’s Llama backbone. Our probing results show consistently high accuracies (> 0.90) for both object and action states across most layers, though contrary to our hypotheses, we did not observe the expected pattern of object states being encoded earlier than action states. We demonstrate an integrated DIARC-OpenVLA system that leverages these symbolic representations for real-time state monitoring, laying the foundation for more interpretable and reliable robotic manipulation.
arxiv情報
著者 | Hong Lu,Hengxu Li,Prithviraj Singh Shahani,Stephanie Herbers,Matthias Scheutz |
発行日 | 2025-02-06 23:11:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google