Future Success Prediction in Open-Vocabulary Object Manipulation Tasks Based on End-Effector Trajectories

要約

この研究は、オープン語彙オブジェクト操作の将来の成功または失敗を予測するように設計されたタスクに取り組みます。
このタスクでは、モデルは自然言語命令、操作前の自己中心的なビュー画像、および指定されたエンドエフェクターの軌道に基づいて予測を行う必要があります。
従来の方法は通常、操作が実行された後でのみ成功予測を実行するため、タスク シーケンス全体の実行効率が制限されます。
私たちは、与えられた軌跡と画像を自然言語の指示と照合することで、成功または失敗の予測を可能にする新しいアプローチを提案します。
Trajectory Encoder を導入して入力軌跡に学習可能な重み付けを適用することで、モデルがオブジェクトとエンド エフェクターの間の時間的なダイナミクスと相互作用を考慮できるようになり、操作の結果を正確に予測するモデルの能力が向上します。
私たちは、方法を評価するために、オープン語彙オブジェクト操作タスクの大規模ベンチマークである RT-1 データセットに基づいてデータセットを構築しました。
実験結果は、私たちの方法がベースラインアプローチよりも高い予測精度を達成したことを示しています。

要約(オリジナル)

This study addresses a task designed to predict the future success or failure of open-vocabulary object manipulation. In this task, the model is required to make predictions based on natural language instructions, egocentric view images before manipulation, and the given end-effector trajectories. Conventional methods typically perform success prediction only after the manipulation is executed, limiting their efficiency in executing the entire task sequence. We propose a novel approach that enables the prediction of success or failure by aligning the given trajectories and images with natural language instructions. We introduce Trajectory Encoder to apply learnable weighting to the input trajectories, allowing the model to consider temporal dynamics and interactions between objects and the end effector, improving the model’s ability to predict manipulation outcomes accurately. We constructed a dataset based on the RT-1 dataset, a large-scale benchmark for open-vocabulary object manipulation tasks, to evaluate our method. The experimental results show that our method achieved a higher prediction accuracy than baseline approaches.

arxiv情報

著者 Motonari Kambara,Komei Sugiura
発行日 2025-01-08 06:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク