Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach

要約

基礎モデルは、汎用でユーザーフレンドリーなロボットへの有望な道です。
一般的なアプローチには、強化学習ポリシーと同様に、観察を使用してアクションを出力するジェネラリスト ポリシーのトレーニングが含まれます。
このアプローチは多くの成功を収めていますが、展開とこれらのシステムとのエンドユーザーの対話を考慮すると、いくつかの懸念が生じます。
特に、タスク間のモジュール性の欠如は、モデルの重みが更新されるとき (たとえば、ユーザーがフィードバックを提供するとき)、他の無関係なタスクの動作が影響を受ける可能性があることを意味します。
これは、システムの解釈可能性と使いやすさに悪影響を与える可能性があります。
ロボット基盤モデルの設計に対する代替アプローチである、スタンドアロンのタスク固有のポリシーを生成するポリシー パラメーターの拡散 (DPP) を紹介します。
これらのポリシーは基盤モデルから切り離されているため、ユーザーがフィードバックまたはパーソナライゼーションを通じて必要なときにのみ更新されるため、ユーザーはそのポリシーに高度に精通することができます。
シミュレーションで DPP の概念実証を示し、その限界と解釈可能な基礎モデルの将来について説明します。

要約(オリジナル)

Foundation models are a promising path toward general-purpose and user-friendly robots. The prevalent approach involves training a generalist policy that, like a reinforcement learning policy, uses observations to output actions. Although this approach has seen much success, several concerns arise when considering deployment and end-user interaction with these systems. In particular, the lack of modularity between tasks means that when model weights are updated (e.g., when a user provides feedback), the behavior in other, unrelated tasks may be affected. This can negatively impact the system’s interpretability and usability. We present an alternative approach to the design of robot foundation models, Diffusion for Policy Parameters (DPP), which generates stand-alone, task-specific policies. Since these policies are detached from the foundation model, they are updated only when a user wants, either through feedback or personalization, allowing them to gain a high degree of familiarity with that policy. We demonstrate a proof-of-concept of DPP in simulation then discuss its limitations and the future of interpretable foundation models.

arxiv情報

著者 Isaac Sheidlower,Reuben Aronson,Elaine Schaertl Short
発行日 2024-07-10 21:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク