要約
視覚言語モデル(VLM)は、マルチモーダル知覚と意味論的推論を通じて、タスク横断的な汎化、動的な環境インタラクション、およびロングホライズンプランニングを可能にする、ロボットシステムにとって極めて重要なツールとして浮上している。しかし、既存のオープンソースのVLMは、一般的な視覚と言語のアライメントタスクのために主に訓練されているが、ロボット操作に重要な時間的に相関する行動セマンティクスを効果的にモデル化することができない。現在の画像ベースの微調整手法は、VLMをロボットアプリケーションに部分的に適応させるが、ビデオシーケンスにおける時間発展パターンを根本的に無視し、ロボットエージェント、操作対象物、環境コンテキスト間の視覚的特徴のもつれに悩まされる:1)オープンソースのロボット映像に対して、意味に制約された行動単位のセグメンテーションと再注釈を行うデータセット再構築フレームワーク、シミュレーション環境での実験結果から、RoboAct-CLIP事前学習モデルは、ベースラインVLMよりも12%高い成功率を達成し、多オブジェクト操作タスクにおいて優れた汎化性を持つことが実証された。
要約(オリジナル)
Visual Language Models (VLMs) have emerged as pivotal tools for robotic systems, enabling cross-task generalization, dynamic environmental interaction, and long-horizon planning through multimodal perception and semantic reasoning. However, existing open-source VLMs predominantly trained for generic vision-language alignment tasks fail to model temporally correlated action semantics that are crucial for robotic manipulation effectively. While current image-based fine-tuning methods partially adapt VLMs to robotic applications, they fundamentally disregard temporal evolution patterns in video sequences and suffer from visual feature entanglement between robotic agents, manipulated objects, and environmental contexts, thereby limiting semantic decoupling capability for atomic actions and compromising model generalizability.To overcome these challenges, this work presents RoboAct-CLIP with dual technical contributions: 1) A dataset reconstruction framework that performs semantic-constrained action unit segmentation and re-annotation on open-source robotic videos, constructing purified training sets containing singular atomic actions (e.g., ‘grasp’); 2) A temporal-decoupling fine-tuning strategy based on Contrastive Language-Image Pretraining (CLIP) architecture, which disentangles temporal action features across video frames from object-centric characteristics to achieve hierarchical representation learning of robotic atomic actions.Experimental results in simulated environments demonstrate that the RoboAct-CLIP pretrained model achieves a 12% higher success rate than baseline VLMs, along with superior generalization in multi-object manipulation tasks.
arxiv情報
| 著者 | Zhiyuan Zhang,Yuxin He,Yong Sun,Junyu Shi,Lijiang Liu,Qiang Nie |
| 発行日 | 2025-04-02 19:02:08+00:00 |
| arxivサイト | arxiv_id(pdf) |