要約
ゼロショット コーディネーション (ZSC) は、協調型 AI 分野において依然として大きな課題となっています。ZSC は、トレーニング環境やさらには新しい環境において、目に見えないパートナーと協力するエージェントを学習することを目的としています。
近年、人気の ZSC ソリューション パラダイムは、深層強化学習 (DRL) と高度なセルフプレイまたは母集団ベースの手法を組み合わせて、目に見えないパートナーを処理するニューラル ポリシーの能力を強化しています。
ある程度の成功はあるものの、これらのアプローチは通常、ポリシー機能としてブラックボックス ニューラル ネットワークに依存しています。
ただし、ニューラル ネットワークには通常、解釈可能性と論理性が欠けており、学習されたポリシーをパートナー (人間など) が理解することが難しくなり、一般化能力が制限されます。
これらの欠点は、強化学習手法を多様な協力シナリオに適用することを妨げています。エージェントのポリシーを解釈可能なプログラムで表現することを提案します。
ニューラル ネットワークとは異なり、プログラムには安定したロジックが含まれていますが、微分不可能で最適化が困難です。このようなプログラムを自動的に学習するために、ゼロショット調整のための知識駆動型プログラム強化学習 (KnowPC) を導入します。
まず、プログラム構造、条件プリミティブ、アクション プリミティブなどの基本的なドメイン固有言語 (DSL) を定義します。
大きな課題は、プログラムの検索スペースが広大であるため、高パフォーマンスのプログラムを効率的に見つけることが困難であることです。
これに対処するために、KnowPC は抽出機能と推論機能を統合します。
抽出器はマルチエージェント相互作用の軌跡から環境遷移の知識を発見し、推論器は遷移の知識に基づいて各アクションプリミティブの前提条件を推定します。
要約(オリジナル)
Zero-shot coordination (ZSC) remains a major challenge in the cooperative AI field, which aims to learn an agent to cooperate with an unseen partner in training environments or even novel environments. In recent years, a popular ZSC solution paradigm has been deep reinforcement learning (DRL) combined with advanced self-play or population-based methods to enhance the neural policy’s ability to handle unseen partners. Despite some success, these approaches usually rely on black-box neural networks as the policy function. However, neural networks typically lack interpretability and logic, making the learned policies difficult for partners (e.g., humans) to understand and limiting their generalization ability. These shortcomings hinder the application of reinforcement learning methods in diverse cooperative scenarios.We suggest to represent the agent’s policy with an interpretable program. Unlike neural networks, programs contain stable logic, but they are non-differentiable and difficult to optimize.To automatically learn such programs, we introduce Knowledge-driven Programmatic reinforcement learning for zero-shot Coordination (KnowPC). We first define a foundational Domain-Specific Language (DSL), including program structures, conditional primitives, and action primitives. A significant challenge is the vast program search space, making it difficult to find high-performing programs efficiently. To address this, KnowPC integrates an extractor and an reasoner. The extractor discovers environmental transition knowledge from multi-agent interaction trajectories, while the reasoner deduces the preconditions of each action primitive based on the transition knowledge.
arxiv情報
著者 | Yin Gu,Qi Liu,Zhi Li,Kai Zhang |
発行日 | 2024-08-08 09:43:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google