Joint Action Language Modelling for Transparent Policy Execution

要約

エージェントの意図は、具体化されたポリシーのブラックボックスの性質の背後に隠されたままであることがよくあります。
次のアクションを説明する自然言語ステートメントを使用したコミュニケーションは、エージェントの行動に向けた透明性を提供できます。
ポリシー学習の問題を言語生成の問題に変換し、それを従来の自己回帰モデリングと組み合わせることにより、透明行動を学習プロセスに直接挿入することを目指しています。
結果として得られるモデルは、透明な自然言語ステートメントを生成し、その後、言語テーブル環境での長老タスクを解決するための特定のアクションを表すトークンが続きます。
以前の作業に続いて、このモデルは、特別な離散化されたトークンに代表される自己回避的な方法で表されるポリシーを作成することを学ぶことができます。
アクションの予測と透明なエージェントの高品質の言語の作成との関係を調査することに特に重点を置いています。
多くの場合、アクション軌跡の品質と透明なステートメントの両方が、それらが同時に生成されると増加することがわかります。

要約(オリジナル)

An agent’s intention often remains hidden behind the black-box nature of embodied policies. Communication using natural language statements that describe the next action can provide transparency towards the agent’s behavior. We aim to insert transparent behavior directly into the learning process, by transforming the problem of policy learning into a language generation problem and combining it with traditional autoregressive modelling. The resulting model produces transparent natural language statements followed by tokens representing the specific actions to solve long-horizon tasks in the Language-Table environment. Following previous work, the model is able to learn to produce a policy represented by special discretized tokens in an autoregressive manner. We place special emphasis on investigating the relationship between predicting actions and producing high-quality language for a transparent agent. We find that in many cases both the quality of the action trajectory and the transparent statement increase when they are generated simultaneously.

arxiv情報

著者 Theodor Wulff,Rahul Singh Maharjan,Xinyun Chi,Angelo Cangelosi
発行日 2025-04-14 09:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO パーマリンク