‘Task Success’ is not Enough: Investigating the Use of Video-Language Models as Behavior Critics for Catching Undesirable Agent Behaviors

要約

大規模な生成モデルは、意味のある候補ソリューションをサンプリングするのに役立つことが示されていますが、タスクの制約やユーザーの好みが見落とされることがよくあります。
モデルが外部検証器と結合され、検証フィードバックに従って最終的なソリューションが反復的または段階的に導出される場合、そのフルパワーがより適切に活用されます。
身体化された AI のコンテキストでは、検証には、指示で指定された目標条件が満たされているかどうかの評価のみが含まれることがよくあります。
それにもかかわらず、これらのエージェントが日常生活にシームレスに統合されるためには、単純なタスクの成功を超えて、より広範囲の制約と好みを考慮することが重要です(たとえば、ロボットは重大な変形を避けるために注意してパンをつかむ必要があります)。
ただし、ロボット タスクの範囲が無制限であることを考えると、囲碁や定理証明などの明示的知識タスクに使用されるものと同様のスクリプト化された検証器を構築することは不可能です。
ここで疑問が生じます。音声検証ツールが利用できない場合、ビデオ内の望ましくないロボットの動作を捕捉するためのスケーラブルな行動批評家として、ほぼ全知の大型ビジョンおよび言語モデル (VLM) を使用できるでしょうか。
これに答えるために、私たちはまず、目標は達成できても望ましくないロボット ポリシーのさまざまなケースを含むベンチマークを構築します。
次に、VLM 批評家を総合的に評価して、彼らの強みと障害モードをより深く理解します。
評価に基づいて、VLM 批判を効果的に活用する方法に関するガイドラインを提供し、フィードバックを政策改善の反復プロセスに統合する実践的な方法を紹介します。
データセットとコードベースは https://guansuns.github.io/pages/vlm-critic でリリースされます。

要約(オリジナル)

Large-scale generative models are shown to be useful for sampling meaningful candidate solutions, yet they often overlook task constraints and user preferences. Their full power is better harnessed when the models are coupled with external verifiers and the final solutions are derived iteratively or progressively according to the verification feedback. In the context of embodied AI, verification often solely involves assessing whether goal conditions specified in the instructions have been met. Nonetheless, for these agents to be seamlessly integrated into daily life, it is crucial to account for a broader range of constraints and preferences beyond bare task success (e.g., a robot should grasp bread with care to avoid significant deformations). However, given the unbounded scope of robot tasks, it is infeasible to construct scripted verifiers akin to those used for explicit-knowledge tasks like the game of Go and theorem proving. This begs the question: when no sound verifier is available, can we use large vision and language models (VLMs), which are approximately omniscient, as scalable Behavior Critics to catch undesirable robot behaviors in videos? To answer this, we first construct a benchmark that contains diverse cases of goal-reaching yet undesirable robot policies. Then, we comprehensively evaluate VLM critics to gain a deeper understanding of their strengths and failure modes. Based on the evaluation, we provide guidelines on how to effectively utilize VLM critiques and showcase a practical way to integrate the feedback into an iterative process of policy refinement. The dataset and codebase are released at: https://guansuns.github.io/pages/vlm-critic.

arxiv情報

著者 Lin Guan,Yifan Zhou,Denis Liu,Yantian Zha,Heni Ben Amor,Subbarao Kambhampati
発行日 2024-02-06 18:07:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク