要約
我々は、アービターによって調整された、利己的なエージェント間の適応的なデータ中心の協調学習のためのフレームワークを提案します。
現実世界のデータの増分性を処理するように設計されたこのフレームワークは、オンライン方式で動作します。各ステップで、アービターはエージェントからデータのバッチを収集し、機械学習モデルをトレーニングし、各エージェントにそのエージェントの特性を反映する個別のモデルを提供します。
データの貢献。
この設定により、共有データがモデルの更新に影響を与えるフィードバック ループが確立され、結果として得られるモデルが将来のデータ共有戦略を導きます。
エージェントはデータを評価して分割し、ポリシー勾配法によって最適化された確率的パラメータ化ポリシーを使用して共有するパーティションを選択し、エージェント固有の評価関数で定義された受信モデルのユーティリティを最適化します。
アービター側では、多様なソースと選択的共有から生じる分布の違いを考慮して、エージェント固有の重みを組み込んで、真のデータ分布に対する期待損失関数が最適化されます。
バイレベル最適化アルゴリズムは、モデル パラメーターとエージェント固有の重みを共同して学習します。
これらのエージェント固有の重みを調整する歪み関数を使用して計算された平均ゼロ ノイズは、個別のエージェント固有のモデルを生成するために導入され、個別のトレーニングを必要とせずに貴重なデータの共有を促進します。
私たちのフレームワークは非漸近分析によって支えられており、エージェント側のポリシー最適化が評価関数の近似定常点に収束し、アービター側の最適化が期待損失関数の近似定常点に収束することを保証します。
要約(オリジナル)
We propose a framework for adaptive data-centric collaborative learning among self-interested agents, coordinated by an arbiter. Designed to handle the incremental nature of real-world data, the framework operates in an online manner: at each step, the arbiter collects a batch of data from agents, trains a machine learning model, and provides each agent with a distinct model reflecting its data contributions. This setup establishes a feedback loop where shared data influence model updates, and the resulting models guide future data-sharing strategies. Agents evaluate and partition their data, selecting a partition to share using a stochastic parameterized policy optimized via policy gradient methods to optimize the utility of the received model as defined by agent-specific evaluation functions. On the arbiter side, the expected loss function over the true data distribution is optimized, incorporating agent-specific weights to account for distributional differences arising from diverse sources and selective sharing. A bilevel optimization algorithm jointly learns the model parameters and agent-specific weights. Mean-zero noise, computed using a distortion function that adjusts these agent-specific weights, is introduced to generate distinct agent-specific models, promoting valuable data sharing without requiring separate training. Our framework is underpinned by non-asymptotic analyses, ensuring convergence of the agent-side policy optimization to an approximate stationary point of the evaluation functions and convergence of the arbiter-side optimization to an approximate stationary point of the expected loss function.
arxiv情報
著者 | Nithia Vijayan,Bryan Kian Hsiang Low |
発行日 | 2024-12-09 15:47:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google