A decision-theoretic model for a principal-agent collaborative learning problem

要約

このテクニカル ノートでは、プリンシパルとエージェントの設定を備えた協調学習フレームワークを検討します。このフレームワークでは、各タイムステップのプリンシパルが、現在のパラメータが $K$ エージェントのグループからどのように効果的にパフォーマンスを推定したかに基づいて、適切な集計係数のセットを決定します。
エージェントのトレーニング モデル データセットの一部ではない別のテスト データセットに関連して。
一方、チームとして一緒に行動するエージェントは、平均場のような交互作用項を持つランジュバン力学の離散時間バージョンを使用してパラメータ推定値を更新しますが、それぞれの異なるトレーニング モデル データセットによってガイドされます。
ここでは、エージェントが平均場のような交互作用項で使用する非負で合計が 1 になる集約係数のセットをプリンシパルが段階的に決定し、最終的に最適なコンセンサスに到達する方法を明示的に説明する決定理論のフレームワークを提案します。
パラメータの推定。
興味深いことに、プリンシパルとエージェントの両方がサンプル分布や品質に関する知識を必ずしも必要としないにもかかわらず、エージェント間の固有のフィードバックと協力的な動作により、提案されたフレームワークは安定性と一般化の点でいくつかの利点を提供します。
お互いのデータセットの。

要約(オリジナル)

In this technical note, we consider a collaborative learning framework with principal-agent setting, in which the principal at each time-step determines a set of appropriate aggregation coefficients based on how the current parameter estimates from a group of $K$ agents effectively performed in connection with a separate test dataset, which is not part of the agents’ training model datasets. Whereas, the agents, who act together as a team, then update their parameter estimates using a discrete-time version of Langevin dynamics with mean-field-like interaction term, but guided by their respective different training model datasets. Here, we propose a decision-theoretic framework that explicitly describes how the principal progressively determines a set of nonnegative and sum to one aggregation coefficients used by the agents in their mean-field-like interaction term, that eventually leading them to reach a consensus optimal parameter estimate. Interestingly, due to the inherent feedbacks and cooperative behavior among the agents, the proposed framework offers some advantages in terms of stability and generalization, despite that both the principal and the agents do not necessarily need to have any knowledge of the sample distributions or the quality of each others’ datasets.

arxiv情報

著者 Getachew K Befekadu
発行日 2024-09-24 13:08:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク