要約
私たちは、エージェントが自分の好みを変更したり誇張したりする可能性がある、ユーザーのクエリに対する LLM 生成の応答に対する複数のエージェントの好みを集約するという課題に取り組みます。
新しいエージェントが新しいクエリごとに参加する可能性があるため、これらの設定に基づいて LLM を微調整するのは非現実的になります。
これらの課題を克服するために、モデルの重みを微調整したりアクセスしたりせずに動作するオークション メカニズムを提案します。
このメカニズムは、計算リソースが増加するにつれて、最適に微調整された LLM の出力に確実に収束するように設計されています。
このメカニズムには、利用可能な場合にはエージェントに関するコンテキスト情報を組み込むこともでき、これにより収束が大幅に加速されます。
適切に設計された支払いルールにより、すべてのエージェントにとって真実の報告が最適な戦略であることが保証されると同時に、各エージェントの有用性と社会福祉への貢献を調整することで公平性も促進されます。これは、このメカニズムの長期的な存続に不可欠な機能です。
当社のアプローチは金銭取引が許可されている場合はいつでも適用できますが、当社の主力用途はオンライン広告です。
これに関連して、広告主は LLM が生成する応答を自社のブランド関心に向けようとしますが、プラットフォームは広告主の価値を最大化し、ユーザーの満足度を確保することを目指しています。
実験結果では、私たちのメカニズムが最適に微調整された LLM に効率的に収束するだけでなく、最小限の計算オーバーヘッドで広告主の価値とプラットフォームの収益を大幅に向上させることが確認されました。
要約(オリジナル)
We address the challenge of aggregating the preferences of multiple agents over LLM-generated replies to user queries, where agents might modify or exaggerate their preferences. New agents may participate for each new query, making fine-tuning LLMs on these preferences impractical. To overcome these challenges, we propose an auction mechanism that operates without fine-tuning or access to model weights. This mechanism is designed to provably converge to the ouput of the optimally fine-tuned LLM as computational resources are increased. The mechanism can also incorporate contextual information about the agents when avaiable, which significantly accelerates its convergence. A well-designed payment rule ensures that truthful reporting is the optimal strategy for all agents, while also promoting an equity property by aligning each agent’s utility with her contribution to social welfare – an essential feature for the mechanism’s long-term viability. While our approach can be applied whenever monetary transactions are permissible, our flagship application is in online advertising. In this context, advertisers try to steer LLM-generated responses towards their brand interests, while the platform aims to maximize advertiser value and ensure user satisfaction. Experimental results confirm that our mechanism not only converges efficiently to the optimally fine-tuned LLM but also significantly boosts advertiser value and platform revenue, all with minimal computational overhead.
arxiv情報
著者 | Ermis Soumalias,Michael J. Curry,Sven Seuken |
発行日 | 2024-05-09 17:01:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google