SySLLM: Generating Synthesized Policy Summaries for Reinforcement Learning Agents Using Large Language Models

要約

強化学習(RL)アルゴリズムによって生成されたポリシーは、複雑な報酬構造とニューラルネットワークベースの表現との相互作用に起因するため、ユーザーに説明するのが難しい場合があります。
この組み合わせは、多くの場合、予測不可能な行動につながり、現実世界のアプリケーションに対する人間の信頼を促進するための重要な障害を分析し、提起することに挑戦する政策をもたらします。
グローバルな政策要約方法は、世界国家のサブセットでのアクションの実証を通じてエージェントの行動を記述することを目的としています。
ただし、ユーザーは限られた数のデモンストレーションのみを視聴でき、ポリシーの理解を制限できます。
さらに、これらの方法は、観測をコヒーレントパターンに合成しないため、ユーザーの解釈に過度に依存しています。
この作業では、Sysllm(LLMSを使用して合成された要約)を提示します。これは、大規模な言語モデル(LLMS)の広範な世界の知識とパターンをキャプチャする能力を利用して、ポリシーのテキストの要約を生成するために、大規模な言語モデル(LLM)の広範な知識と能力を利用して、合成要約を使用する新しい方法です。
具体的には、専門家の評価は、提案されたアプローチが、重要な幻覚をもたらさない一方で、専門家によって生成された主な洞察をキャプチャする要約を生成することを示しています。
さらに、ユーザー調査では、SYSLLMの要約がデモベースのポリシーの要約よりも優先され、客観的なエージェント識別タスクでのパフォーマンスを一致または上回ることが示されています。

要約(オリジナル)

Policies generated by Reinforcement Learning (RL) algorithms can be difficult to describe to users, as they result from the interplay between complex reward structures and neural network-based representations. This combination often leads to unpredictable behaviors, making policies challenging to analyze and posing significant obstacles to fostering human trust in real-world applications. Global policy summarization methods aim to describe agent behavior through a demonstration of actions in a subset of world-states. However, users can only watch a limited number of demonstrations, restricting their understanding of policies. Moreover, those methods overly rely on user interpretation, as they do not synthesize observations into coherent patterns. In this work, we present SySLLM (Synthesized Summary using LLMs), a novel method that employs synthesis summarization, utilizing large language models’ (LLMs) extensive world knowledge and ability to capture patterns, to generate textual summaries of policies. Specifically, an expert evaluation demonstrates that the proposed approach generates summaries that capture the main insights generated by experts while not resulting in significant hallucinations. Additionally, a user study shows that SySLLM summaries are preferred over demonstration-based policy summaries and match or surpass their performance in objective agent identification tasks.

arxiv情報

著者 Sahar Admoni,Omer Ben-Porat,Ofra Amir
発行日 2025-03-13 16:10:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク