要約
現代のメディア企業は、ユーザーにとって最も魅力的で魅力的なコンテンツを特定するための、自動化された効率的な方法を必要としています。
Upworthy (ニュース出版社) が提供する 17,681 件の見出し A/B テストを含む大規模なデータセットを活用して、最初に、最もキャッチーな見出しを特定するための 3 つの純粋な LLM アプローチの能力を調査します。プロンプトベースの手法、埋め込みベースの手法、
微調整されたオープンソース LLM。
プロンプトベースのアプローチはパフォーマンスが低い一方で、OpenAI 埋め込みベースのモデルと微調整された Llama-3-8B はどちらもランダム予測よりもわずかに高い精度を達成します。
要するに、純粋な LLM ベースの手法はどれも、最もパフォーマンスの高いヘッドラインを高精度で予測することはできません。
次に、大規模言語モデル (LLM) と適応実験を統合してコンテンツ配信を最適化する新しいフレームワークである、LLM 支援オンライン学習アルゴリズム (LOLA) を紹介します。
LOLA は、最良の純粋な LLM アプローチと上限信頼限界アルゴリズムを組み合わせて、トラフィックを割り当て、クリック数を適応的に最大化します。
Upworthy データに関する数値実験では、特に実験トラフィックが限られているシナリオでは、LOLA が標準的な A/B テスト手法 (Upworthy の現状)、純粋なバンディット アルゴリズム、および純粋な LLM アプローチよりも優れていることが示されています。
私たちのアプローチは拡張可能であり、企業がデジタル広告やソーシャルメディアのレコメンデーションなど、ユーザーエンゲージメントの最適化を目指すさまざまな環境でのコンテンツ実験に適用できます。
要約(オリジナル)
Modern media firms require automated and efficient methods to identify content that is most engaging and appealing to users. Leveraging a large-scale dataset from Upworthy (a news publisher), which includes 17,681 headline A/B tests, we first investigate the ability of three pure-LLM approaches to identify the catchiest headline: prompt-based methods, embedding-based methods, and fine-tuned open-source LLMs. Prompt-based approaches perform poorly, while both OpenAI-embedding-based models and the fine-tuned Llama-3-8B achieve marginally higher accuracy than random predictions. In sum, none of the pure-LLM-based methods can predict the best-performing headline with high accuracy. We then introduce the LLM-Assisted Online Learning Algorithm (LOLA), a novel framework that integrates Large Language Models (LLMs) with adaptive experimentation to optimize content delivery. LOLA combines the best pure-LLM approach with the Upper Confidence Bound algorithm to allocate traffic and maximize clicks adaptively. Our numerical experiments on Upworthy data show that LOLA outperforms the standard A/B test method (the current status quo at Upworthy), pure bandit algorithms, and pure-LLM approaches, particularly in scenarios with limited experimental traffic. Our approach is scalable and applicable to content experiments across various settings where firms seek to optimize user engagement, including digital advertising and social media recommendations.
arxiv情報
著者 | Zikun Ye,Hema Yoganarasimhan,Yufeng Zheng |
発行日 | 2024-11-26 18:51:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google