Cognitive Kernel: An Open-source Agent System towards Generalist Autopilots

要約

ジェネラリスト自動操縦の目標に向けたオープンソース エージェント システムである Cognitive Kernel を紹介します。
重要な状態情報 (タスクの説明など) を提供し、質問に答えたり内容を自動で完了したりすることでユーザーを支援することを主にユーザーに依存する副操縦システムとは異なり、自動操縦システムはタスクを最初から最後まで独立して完了する必要があり、システムが
環境からの情報を積極的にステートします。
これを達成するには、自動操縦システムはユーザーの意図を理解し、現実世界のさまざまなソースから必要な情報を積極的に収集し、賢明な決定を下すことができなければなりません。
コグニティブ カーネルはモデル中心の設計を採用しています。
私たちの実装では、中央ポリシー モデル (微調整された LLM) は、ファイルを開く、ボタンをクリックする、中間結果をメモリに保存する、LLM 自体を呼び出すなどのアトミック アクションの組み合わせを使用して環境との対話を開始します。
これは、広く使用されている環境中心の設計とは異なります。環境中心の設計では、事前定義されたアクションを備えたタスク固有の環境が固定されており、ポリシー モデルは、指定された一連のオプションから正しいアクションを選択することに限定されます。
当社の設計により、さまざまなソース間でのシームレスな情報フローが促進され、柔軟性が向上します。
私たちは、リアルタイム情報管理、個人情報管理、長期メモリ管理の 3 つの使用例でシステムを評価します。
結果は、これらのシナリオにおいて、コグニティブ カーネルが他のクローズド ソース システムよりも優れた、または同等のパフォーマンスを達成することを示しています。
Cognitive Kernel は完全に Docker 化されており、誰もがプライベートかつ安全にデプロイできるようになります。
私たちは、LLM 駆動の自動操縦システムに関するさらなる研究を奨励するために、システムとバックボーン モデルをオープンソースにしています。

要約(オリジナル)

We introduce Cognitive Kernel, an open-source agent system towards the goal of generalist autopilots. Unlike copilot systems, which primarily rely on users to provide essential state information (e.g., task descriptions) and assist users by answering questions or auto-completing contents, autopilot systems must complete tasks from start to finish independently, which requires the system to acquire the state information from the environments actively. To achieve this, an autopilot system should be capable of understanding user intents, actively gathering necessary information from various real-world sources, and making wise decisions. Cognitive Kernel adopts a model-centric design. In our implementation, the central policy model (a fine-tuned LLM) initiates interactions with the environment using a combination of atomic actions, such as opening files, clicking buttons, saving intermediate results to memory, or calling the LLM itself. This differs from the widely used environment-centric design, where a task-specific environment with predefined actions is fixed, and the policy model is limited to selecting the correct action from a given set of options. Our design facilitates seamless information flow across various sources and provides greater flexibility. We evaluate our system in three use cases: real-time information management, private information management, and long-term memory management. The results demonstrate that Cognitive Kernel achieves better or comparable performance to other closed-source systems in these scenarios. Cognitive Kernel is fully dockerized, ensuring everyone can deploy it privately and securely. We open-source the system and the backbone model to encourage further research on LLM-driven autopilot systems.

arxiv情報

著者 Hongming Zhang,Xiaoman Pan,Hongwei Wang,Kaixin Ma,Wenhao Yu,Dong Yu
発行日 2024-09-16 13:39:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク