要約
我々は、マルチエージェントのスパース文脈線形バンディット問題に対処するための新しいアプローチを提案します。この問題では、特徴ベクトルは高次元 $d$ を持ちますが、報酬関数は限られた特徴セット (正確には $s_0 \ll d$) にのみ依存します。
さらに、学習は情報共有の制約の下で行われます。
提案された方法では、次元削減に Lasso 回帰を採用しており、各エージェントが独立して主な次元のおおよそのセットを推定し、ネットワークの構造に応じてその情報を他のエージェントと共有できるようになります。
その後、情報は特定のプロセスを通じて集約され、すべてのエージェントと共有されます。
次に、各エージェントは、抽出された次元のみに焦点を当てたリッジ回帰を使用して問題を解決します。
スター型ネットワークとピアツーピア ネットワークの両方のアルゴリズムを表します。
このアプローチは、エージェントごとの累積的な後悔を最小限に抑えながら、コミュニケーション コストを効果的に削減します。
理論的には、私たちが提案した方法には、高い確率で $\mathcal{O}(s_0 \log d + s_0 \sqrt{T})$ のリグレス限界があることが示されます。ここで、$T$ は時間軸です。
私たちの知る限り、これは疎な線形バンディットで行単位の分散データに取り組む最初のアルゴリズムであり、最先端の単一エージェントおよびマルチエージェント手法と比較して同等のパフォーマンスを達成します。
さらに、後悔を最小限に抑えるために効率的な特徴抽出が重要である高次元のマルチエージェント問題にも広く適用できます。
私たちのアプローチの有効性を検証するために、合成データセットと現実世界のデータセットの両方に関する実験結果を示します。
要約(オリジナル)
We present a novel approach to address the multi-agent sparse contextual linear bandit problem, in which the feature vectors have a high dimension $d$ whereas the reward function depends on only a limited set of features – precisely $s_0 \ll d$. Furthermore, the learning follows under information-sharing constraints. The proposed method employs Lasso regression for dimension reduction, allowing each agent to independently estimate an approximate set of main dimensions and share that information with others depending on the network’s structure. The information is then aggregated through a specific process and shared with all agents. Each agent then resolves the problem with ridge regression focusing solely on the extracted dimensions. We represent algorithms for both a star-shaped network and a peer-to-peer network. The approaches effectively reduce communication costs while ensuring minimal cumulative regret per agent. Theoretically, we show that our proposed methods have a regret bound of order $\mathcal{O}(s_0 \log d + s_0 \sqrt{T})$ with high probability, where $T$ is the time horizon. To our best knowledge, it is the first algorithm that tackles row-wise distributed data in sparse linear bandits, achieving comparable performance compared to the state-of-the-art single and multi-agent methods. Besides, it is widely applicable to high-dimensional multi-agent problems where efficient feature extraction is critical for minimizing regret. To validate the effectiveness of our approach, we present experimental results on both synthetic and real-world datasets.
arxiv情報
著者 | Haniyeh Barghi,Xiaotong Cheng,Setareh Maghsudi |
発行日 | 2023-05-30 16:05:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google