要約
動的環境では、既存の環境知識の急速な陳腐化は、エージェントの内部モデルとその運用コンテキストの進化する現実との間にギャップを生み出します。
以前の環境評価と更新された環境評価のこの格差は、自律的な意思決定の有効性を根本的に制限します。
このギャップを埋めるために、直接的なリアルタイムの観察を通じて洞察を自然に蓄積する人間のドメインの利害関係者の文脈的バイアスは不可欠になります。
ただし、自律システムの実用的なインテリジェンスに微妙な、コンテキストが豊富な入力を翻訳することは、依然としてオープンな課題です。
これに対処するために、階層的な意思決定アーキテクチャを強化学習(RL)および大手言語モデル(LLM)と統一されたシステムに統合するドメインと存在するフレームワークであるLucifer(言語理解とコンテキストに浸透したフレームワーク)を提案します。
このアーキテクチャは、人間が複雑なタスクを分解する方法を反映しており、高レベルのプランナーが特殊なサブエージェントを調整できるようにします。
LLMが単一の役割に限定されている従来のアプリケーションとは異なり、Luciferはそれらを2つの相乗的役割に統合します。コンテキスト抽出者として、エージェントの学習プロセスとのLLM由来の洞察を介した注意空間メカニズムを介して意思決定に影響を与えるドメインアウェア表現への口頭の利害関係者の入力を構成し、エージェントの選択プロセスを調整するためのゼロショットの視点を調整するためのゼロショットの検査施設を調整します。
両方の役割でさまざまなLLMをベンチマークし、ルシファーが探査効率と決定の質を向上させ、フラットで目標条件のポリシーを上回ることを実証します。
私たちの調査結果は、自律システムが運用上の成功のために人間の文脈的知識を活用するコンテキスト主導の意思決定の可能性を示しています。
要約(オリジナル)
In dynamic environments, the rapid obsolescence of pre-existing environmental knowledge creates a gap between an agent’s internal model and the evolving reality of its operational context. This disparity between prior and updated environmental valuations fundamentally limits the effectiveness of autonomous decision-making. To bridge this gap, the contextual bias of human domain stakeholders, who naturally accumulate insights through direct, real-time observation, becomes indispensable. However, translating their nuanced, and context-rich input into actionable intelligence for autonomous systems remains an open challenge. To address this, we propose LUCIFER (Language Understanding and Context-Infused Framework for Exploration and Behavior Refinement), a domain-agnostic framework that integrates a hierarchical decision-making architecture with reinforcement learning (RL) and large language models (LLMs) into a unified system. This architecture mirrors how humans decompose complex tasks, enabling a high-level planner to coordinate specialised sub-agents, each focused on distinct objectives and temporally interdependent actions. Unlike traditional applications where LLMs are limited to single role, LUCIFER integrates them in two synergistic roles: as context extractors, structuring verbal stakeholder input into domain-aware representations that influence decision-making through an attention space mechanism aligning LLM-derived insights with the agent’s learning process, and as zero-shot exploration facilitators guiding the agent’s action selection process during exploration. We benchmark various LLMs in both roles and demonstrate that LUCIFER improves exploration efficiency and decision quality, outperforming flat, goal-conditioned policies. Our findings show the potential of context-driven decision-making, where autonomous systems leverage human contextual knowledge for operational success.
arxiv情報
著者 | Dimitris Panagopoulos,Adolfo Perrusquia,Weisi Guo |
発行日 | 2025-06-09 16:30:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google