Generative Auto-Bidding with Value-Guided Explorations

要約

動的かつ競争力のあるオンライン環境内で入札決定を最適化する強力な能力を備えた自動入居は、広告プラットフォームにとって極めて重要な戦略となっています。
既存のアプローチは通常、ルールベースの戦略または強化学習(RL)技術を採用しています。
ただし、ルールベースの戦略には、時変市場の状況に適応する柔軟性が欠けており、RLベースの方法は、マルコフ決定プロセス(MDP)フレームワーク内で本質的な歴史的依存関係と観察を把握するのに苦労しています。
さらに、これらのアプローチは、多様な広告目標にわたって戦略の適応性を確保する上で課題に直面していることがよくあります。
さらに、安定したオンライン戦略の展開とメンテナンスを促進するためにオフライントレーニング方法がますます採用されているため、文書化された行動パターンと、固定オフラインデータセットでのトレーニングに起因する行動崩壊の問題がますます重要になります。
これらの制限に対処するために、このペーパーでは、価値ガイド付きの探索(与えられた)を備えた新しいオフライン生成自動融合フレームワークを紹介します。
スコアベースのReturn-to-Go(RTG)モジュールを通じて、さまざまな広告目標を収容しました。
さらに、統合されたアクション探索メカニズムをRTGベースの評価方法で提供し、安定性を提供する更新を確保しながら、新しいアクションを調査しました。
学習可能な値関数は、アクションの探求の方向を導き、分散除外(OOD)の問題を軽減するためにも設計されています。
2つのオフラインデータセットと実際の展開での実験結果は、オフライン評価とオンラインA/Bテストの両方で最先端のベースラインをアウトパフォーマンスしたことを示しています。
このフレームワークのコアメソッドを適用することにより、Neurips 2024競争で1位を誇らしげに確保しました。「AIGBトラック:生成モデルを使用した自動入金エージェントの学習」。

要約(オリジナル)

Auto-bidding, with its strong capability to optimize bidding decisions within dynamic and competitive online environments, has become a pivotal strategy for advertising platforms. Existing approaches typically employ rule-based strategies or Reinforcement Learning (RL) techniques. However, rule-based strategies lack the flexibility to adapt to time-varying market conditions, and RL-based methods struggle to capture essential historical dependencies and observations within Markov Decision Process (MDP) frameworks. Furthermore, these approaches often face challenges in ensuring strategy adaptability across diverse advertising objectives. Additionally, as offline training methods are increasingly adopted to facilitate the deployment and maintenance of stable online strategies, the issues of documented behavioral patterns and behavioral collapse resulting from training on fixed offline datasets become increasingly significant. To address these limitations, this paper introduces a novel offline Generative Auto-bidding framework with Value-Guided Explorations (GAVE). GAVE accommodates various advertising objectives through a score-based Return-To-Go (RTG) module. Moreover, GAVE integrates an action exploration mechanism with an RTG-based evaluation method to explore novel actions while ensuring stability-preserving updates. A learnable value function is also designed to guide the direction of action exploration and mitigate Out-of-Distribution (OOD) problems. Experimental results on two offline datasets and real-world deployments demonstrate that GAVE outperforms state-of-the-art baselines in both offline evaluations and online A/B tests. By applying the core methods of this framework, we proudly secured first place in the NeurIPS 2024 competition, ‘AIGB Track: Learning Auto-Bidding Agents with Generative Models’.

arxiv情報

著者 Jingtong Gao,Yewen Li,Shuai Mao,Peng Jiang,Nan Jiang,Yejing Wang,Qingpeng Cai,Fei Pan,Peng Jiang,Kun Gai,Bo An,Xiangyu Zhao
発行日 2025-04-25 15:04:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG パーマリンク