Free Agent in Agent-Based Mixture-of-Experts Generative AI Framework

要約

マルチエージェントシステムは一般に、特殊な自律エージェント間でタスクを配布しますが、多くの場合、パフォーマンスの低いエージェントをリアルタイムで交換または再配置するメカニズムがありません。
メジャーリーグ野球のフリーエージェンシーモデルに触発されたThe Rehnection Learning Free Agent(RLFA)アルゴリズムは、永続的な低パフォーマンスを示すエージェントを検出および除去する報酬ベースのメカニズムを導入し、より有能なメカニズムを挿入します。
各エージェントは内部的に混合物(Experts(MOE)アプローチを使用し、ゲーティング機能のガイダンスの下で、入ってくるタスクを専門のサブモデルに委任します。
主なユースケースは詐欺検出です。ここでは、RLFAが検出精度がプリセットしきい値を下回るエージェントを速やかに交換します。
新しいエージェントが試用モードでテストされ、優れた性能を発揮すると、アンダーパフォーマーを完全に交換します。
この動的で自由機関のサイクルは、持続的な精度、新たな脅威への迅速な適応、および進行中の運用の最小限の混乱を保証します。
エージェントの名簿を継続的にリフレッシュすることにより、このシステムは、マルチエージェント生成AI環境での継続的な改善とより回復力のあるコラボレーションを促進します。

要約(オリジナル)

Multi-agent systems commonly distribute tasks among specialized, autonomous agents, yet they often lack mechanisms to replace or reassign underperforming agents in real time. Inspired by the free-agency model of Major League Baseball, the Reinforcement Learning Free Agent (RLFA) algorithm introduces a reward-based mechanism to detect and remove agents exhibiting persistent underperformance and seamlessly insert more capable ones. Each agent internally uses a mixture-of-experts (MoE) approach, delegating incoming tasks to specialized sub-models under the guidance of a gating function. A primary use case is fraud detection, where RLFA promptly swaps out an agent whose detection accuracy dips below a preset threshold. A new agent is tested in a probationary mode, and upon demonstrating superior performance, fully replaces the underperformer. This dynamic, free-agency cycle ensures sustained accuracy, quicker adaptation to emerging threats, and minimal disruption to ongoing operations. By continually refreshing its roster of agents, the system fosters ongoing improvements and more resilient collaboration in multi-agent Generative AI environments.

arxiv情報

著者 Jung-Hua Liu
発行日 2025-02-10 16:13:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA パーマリンク