Adversarial Constrained Bidding via Minimax Regret Optimization with Causality-Aware Reinforcement Learning

要約

インターネットの普及により、オンライン オークションの仕組みによってオンライン広告が登場しました。
これらの繰り返されるオークションでは、ソフトウェア エージェントが集約された広告主に代わって参加し、長期的な有用性を最適化します。
多様な需要を満たすために、入札戦略が採用され、さまざまな支出制約に従って広告目標が最適化されます。
制約付き入札に関する既存のアプローチは通常、i.i.d に依存しています。
これは、さまざまな当事者が潜在的に矛盾する目的を持っているオンライン広告市場の敵対的な性質に矛盾します。
これに関連して、敵対的要因についての知識がまったくないことを前提とした、敵対的入札環境における制約付き入札の問題を調査します。
i.i.d.に頼るのではなく、
前提として、私たちの洞察は、ポリシーの後悔を最小限に抑えながら、環境のトレイン分布を潜在的なテスト分布に合わせることです。
この洞察に基づいて、私たちは、個別指導のための敵対的な環境を見つける教師と、与えられた環境の分布に対するポリシーをメタ学習する学習者の間をインターリーブする、実用的な Minimax Regret Optimization (MiRO) アプローチを提案します。
さらに、私たちは入札戦略を学ぶために専門家によるデモンストレーションを先駆けて取り入れています。
因果関係を意識したポリシー設計を通じて、専門家からの知識を抽出して MiRO を改善します。
産業データと合成データの両方に関する広範な実験により、因果関係を意識した強化学習 (MiROCL) を使用した私たちの手法である MiRO が、従来の手法より 30% 以上優れていることが示されました。

要約(オリジナル)

The proliferation of the Internet has led to the emergence of online advertising, driven by the mechanics of online auctions. In these repeated auctions, software agents participate on behalf of aggregated advertisers to optimize for their long-term utility. To fulfill the diverse demands, bidding strategies are employed to optimize advertising objectives subject to different spending constraints. Existing approaches on constrained bidding typically rely on i.i.d. train and test conditions, which contradicts the adversarial nature of online ad markets where different parties possess potentially conflicting objectives. In this regard, we explore the problem of constrained bidding in adversarial bidding environments, which assumes no knowledge about the adversarial factors. Instead of relying on the i.i.d. assumption, our insight is to align the train distribution of environments with the potential test distribution meanwhile minimizing policy regret. Based on this insight, we propose a practical Minimax Regret Optimization (MiRO) approach that interleaves between a teacher finding adversarial environments for tutoring and a learner meta-learning its policy over the given distribution of environments. In addition, we pioneer to incorporate expert demonstrations for learning bidding strategies. Through a causality-aware policy design, we improve upon MiRO by distilling knowledge from the experts. Extensive experiments on both industrial data and synthetic data show that our method, MiRO with Causality-aware reinforcement Learning (MiROCL), outperforms prior methods by over 30%.

arxiv情報

著者 Haozhe Wang,Chao Du,Panyan Fang,Li He,Liang Wang,Bo Zheng
発行日 2023-06-12 13:31:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.IR, cs.LG パーマリンク