LLMs can implicitly learn from mistakes in-context

要約

間違いから学ぶことは、人間の知性の基本的な特徴です。
以前の研究では、大規模な言語モデル(LLM)は、答えが間違っている理由またはそれを修正する方法を詳述する包括的な根拠を提供する場合、誤った回答から学習できることを示しています。
この作業では、これらの説明が提供されていない場合、LLMSが数学的推論タスクの間違いから学ぶことができるかどうかを調べます。
LLMが、誤った答えと正解の両方を観察するだけで、そのような理論的根拠を暗黙的に推測できるかどうかを調査します。
驚くべきことに、LLMSは、文脈から理論的根拠が排除され、正しい回答と一緒に正しい回答と一緒に表示される場合、平均してより良くパフォーマンスを発揮します。
また、このアプローチは、私たちの評価におけるチェーンの考え方を大幅に上回っています。
これらの結果は、さまざまなサイズのLLMとさまざまな推論能力にわたって一貫していることを示しています。
さらに、詳細な分析を実施し、間違った答えと正解の両方でプロンプトがコンテキストに追加の、より多様な質問回答ペアを導入するよりも、パフォーマンスと一般化の向上につながることを示します。
最後に、誤った答えと正解のみが観察されたモデルによって生成された新しい理論的根拠は、模範的な根拠の助けを借りて生成されたものと同じくらい人間によって等しく採点されることを示します。
私たちの結果は、LLMが実際にコンテキスト内の暗黙学習が可能であることを示しています。

要約(オリジナル)

Learning from mistakes is a fundamental feature of human intelligence. Previous work has shown that Large Language Models (LLMs) can also learn from incorrect answers when provided with a comprehensive rationale detailing why an answer is wrong or how to correct it. In this work, we examine whether LLMs can learn from mistakes in mathematical reasoning tasks when these explanations are not provided. We investigate if LLMs are able to implicitly infer such rationales simply from observing both incorrect and correct answers. Surprisingly, we find that LLMs perform better, on average, when rationales are eliminated from the context and incorrect answers are simply shown alongside correct ones. This approach also substantially outperforms chain-of-thought prompting in our evaluations. We show that these results are consistent across LLMs of different sizes and varying reasoning abilities. Further, we carry out an in-depth analysis, and show that prompting with both wrong and correct answers leads to greater performance and better generalisation than introducing additional, more diverse question-answer pairs into the context. Finally, we show that new rationales generated by models that have only observed incorrect and correct answers are scored equally as highly by humans as those produced with the aid of exemplar rationales. Our results demonstrate that LLMs are indeed capable of in-context implicit learning.

arxiv情報

著者 Lisa Alazraki,Maximilian Mozes,Jon Ander Campos,Yi Chern Tan,Marek Rei,Max Bartolo
発行日 2025-02-12 16:31:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLMs can implicitly learn from mistakes in-context はコメントを受け付けていません

Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies

要約

大規模な言語モデル(LLMS)は、流fluentで説得力のある音に聞こえる誤った応答を生成し、ユーザーが正しいかのようにこれらの応答に依存するリスクを高めます。
このような過依存を軽減することが重要な課題です。
参加者がLLM注入アプリケーションを使用して客観的な質問に答えるThink-Aloud研究を通じて、ユーザーの信頼を形作るLLM応答のいくつかの機能を特定します。説明(回答の詳細のサポート)、説明の不一致、およびソース。
大規模で事前に登録された制御された実験(n = 308)を通じて、ユーザーの信頼、精度、およびその他の測定値に対するこれらの機能の影響を分離および研究します。
説明の存在は、正しい応答と誤った応答の両方に依存していることがわかります。
ただし、ソースが提供されている場合、または説明が矛盾を示す場合、誤った応答への依存度が低いことがわかります。
LLMSへの適切な依存を促進するためのこれらの調査結果の意味について説明します。

要約(オリジナル)

Large language models (LLMs) can produce erroneous responses that sound fluent and convincing, raising the risk that users will rely on these responses as if they were correct. Mitigating such overreliance is a key challenge. Through a think-aloud study in which participants use an LLM-infused application to answer objective questions, we identify several features of LLM responses that shape users’ reliance: explanations (supporting details for answers), inconsistencies in explanations, and sources. Through a large-scale, pre-registered, controlled experiment (N=308), we isolate and study the effects of these features on users’ reliance, accuracy, and other measures. We find that the presence of explanations increases reliance on both correct and incorrect responses. However, we observe less reliance on incorrect responses when sources are provided or when explanations exhibit inconsistencies. We discuss the implications of these findings for fostering appropriate reliance on LLMs.

arxiv情報

著者 Sunnie S. Y. Kim,Jennifer Wortman Vaughan,Q. Vera Liao,Tania Lombrozo,Olga Russakovsky
発行日 2025-02-12 16:35:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies はコメントを受け付けていません

UniZyme: A Unified Protein Cleavage Site Predictor Enhanced with Enzyme Active-Site Knowledge

要約

酵素触媒タンパク質切断は、多くの生物学的機能に不可欠です。
切断部位の正確な予測は、医薬品開発、酵素設計、生物学的メカニズムのより深い理解など、さまざまな用途を促進できます。
ただし、ほとんどの既存のモデルは個々の酵素に限定されており、酵素の共有知識を無視し、新規酵素に一般化できます。
したがって、unizymeという名前の統一されたタンパク質切断部位予測子を導入します。これは、多様な酵素全体に一般化できます。
タンパク質切断部位予測の酵素エンコードを強化するために、Unizymeは、タンパク質分解酵素の活性サイト知識とともに、新規生化学的に基づいたモデルアーキテクチャを採用しています。
広範な実験では、単一酵素が、目に見えない酵素を含むさまざまなタンパク質分解酵素にわたって切断部位を予測する際に高い精度を達成することを示しています。
このコードは、https://anonymous.4open.science/r/unizyme-4a67で入手できます。

要約(オリジナル)

Enzyme-catalyzed protein cleavage is essential for many biological functions. Accurate prediction of cleavage sites can facilitate various applications such as drug development, enzyme design, and a deeper understanding of biological mechanisms. However, most existing models are restricted to an individual enzyme, which neglects shared knowledge of enzymes and fails generalize to novel enzymes. Thus, we introduce a unified protein cleavage site predictor named UniZyme, which can generalize across diverse enzymes. To enhance the enzyme encoding for the protein cleavage site prediction, UniZyme employs a novel biochemically-informed model architecture along with active-site knowledge of proteolytic enzymes. Extensive experiments demonstrate that UniZyme achieves high accuracy in predicting cleavage sites across a range of proteolytic enzymes, including unseen enzymes. The code is available in https://anonymous.4open.science/r/UniZyme-4A67.

arxiv情報

著者 Chenao Li,Shuo Yan,Enyan Dai
発行日 2025-02-12 16:47:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68Q32, 68T07, 92D15, 92E10, cs.AI, cs.LG, I.2.6, q-bio.QM | UniZyme: A Unified Protein Cleavage Site Predictor Enhanced with Enzyme Active-Site Knowledge はコメントを受け付けていません

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

要約

チェーンオブテーブル(COT)推論は、大規模な言語モデル(LLM)の数学的推論能力を高めるために広く使用されています。
COT軌道のプロセス監督の導入は、テスト時間スケーリングの改善に関する議論を引き起こし、それによりこれらのモデルのシステム2スタイルの思考機能のロックを解除しました。
ただし、マルチモーダル数学的推論では、高品質のCOTトレーニングデータの希少性により、既存のモデルが意図的な推論と微調整された検証の両方を達成することを妨げています。
この作業では、マルチモーダル数学的推論にシステム2スタイルの思考を紹介する新しいフレームワークを提案します。
COTの蒸留、軌跡形式の書き換え、およびフォーマット統合を統合する3モジュールCOTデータ合成プロセスを導入します。
このプロセスは、高品質のCOT推論命令微調整データセットであるMMATHCOT-1Mを生成します。
さらに、視覚的な接地の忠実度と演ductive的なチェーンの妥当性の両方を対象としたデュアルビュー軌道ラベルの自動化を実装し、Dualmath-1.1Mデータセットをもたらします。
Mmathcot-1MでトレーニングされたURSA-8Bモデルは、6つの一般的な推論ベンチマークで同様にサイズのマルチモーダルLLMの間で、新しい最先端(SOTA)パフォーマンスを実現します。
DualMath-1.1M DatasetでURSA-8Bをさらにトレーニングすると、URSA-8Bのテスト時間パフォーマンスを向上させ、GPT-4oのような強力なクローズドソースマルチモーダルMLLMを上回る検証剤であるURSA-RM-8Bが生成されます。
モデルの重み、トレーニングデータ、およびコードはオープンソースにされています:https://github.com/ursa-math/ursa-math。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning is widely used to enhance the mathematical reasoning capabilities of large language models (LLMs). The introduction of process supervision for CoT trajectories has sparked discussions on improving test-time scaling, thereby unlocking the System 2-style thinking capabilities of these models. However, in multimodal mathematical reasoning, the scarcity of high-quality CoT training data has hindered existing models from achieving both deliberate reasoning and fine-grained verification. In this work, we propose a novel framework that introduces System 2-style thinking to multimodal mathematical reasoning. We introduce a three-module CoT data synthesis process that integrates CoT distillation, trajectory-format rewriting, and format unification. This process generates MMathCoT-1M, a high-quality CoT reasoning instruction fine-tuning dataset. Furthermore, we implement a dual-view trajectory labeling automation that targets both visual grounding fidelity and deductive chain validity, resulting in the DualMath-1.1M dataset. The URSA-8B model, trained on MMathCoT-1M, achieves new state-of-the-art (SOTA) performance among similarly sized multimodal LLMs on six popular reasoning benchmarks. Training URSA-8B further on the DualMath-1.1M dataset yields URSA-RM-8B, a verifier that enhances URSA-8B’s test-time performance and surpasses strong closed-source multimodal MLLMs like GPT-4o. The model weights, training data, and code have been open-sourced: https://github.com/URSA-MATH/URSA-MATH.

arxiv情報

著者 Ruilin Luo,Zhuofan Zheng,Yifan Wang,Yiyao Yu,Xinzhe Ni,Zicheng Lin,Jin Zeng,Yujiu Yang
発行日 2025-02-12 16:49:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics はコメントを受け付けていません

Topic-Aware Knowledge Graph with Large Language Models for Interoperability in Recommender Systems

要約

推奨システムでの知識グラフの使用は、データのスパースとコールドスタートの問題に対処するための一般的なアプローチの1つになりました。
大規模な言語モデル(LLMS)の最近の進歩は、知識グラフ内の側面およびコンテキスト情報を処理するための新しい可能性を提供します。
ただし、ドメインの専門家の介入とシステム特性の違いが必要なため、さまざまなシステム間の一貫した統合は依然として困難です。
これらの問題に対処するために、LLMSを使用して、側面情報とコンテキスト情報の両方から一般的および特定のトピックの両方を抽出する一貫したアプローチを提案します。
まず、一般的なトピックが繰り返し抽出され、サイド情報から更新されます。
次に、コンテキスト情報を使用して特定のトピックが抽出されます。
最後に、特定のトピック抽出プロセス中に生成された同義語のトピックに対処するために、精製アルゴリズムがこれらの問題を効果的に処理および解決します。
このアプローチにより、一般的なトピックは多様なアイテムの特性にわたって幅広い知識をキャプチャすることができますが、特定のトピックは詳細な属性を強調し、アイテムのセマンティック機能とユーザーの好みをより包括的に理解することができます。
実験結果は、多様な知識グラフにわたる推奨パフォーマンスの大幅な改善を示しています。

要約(オリジナル)

The use of knowledge graphs in recommender systems has become one of the common approaches to addressing data sparsity and cold start problems. Recent advances in large language models (LLMs) offer new possibilities for processing side and context information within knowledge graphs. However, consistent integration across various systems remains challenging due to the need for domain expert intervention and differences in system characteristics. To address these issues, we propose a consistent approach that extracts both general and specific topics from both side and context information using LLMs. First, general topics are iteratively extracted and updated from side information. Then, specific topics are extracted using context information. Finally, to address synonymous topics generated during the specific topic extraction process, a refining algorithm processes and resolves these issues effectively. This approach allows general topics to capture broad knowledge across diverse item characteristics, while specific topics emphasize detailed attributes, providing a more comprehensive understanding of the semantic features of items and the preferences of users. Experimental results demonstrate significant improvements in recommendation performance across diverse knowledge graphs.

arxiv情報

著者 Minhye Jeon,Seokho Ahn,Young-Duk Seo
発行日 2025-02-12 16:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Topic-Aware Knowledge Graph with Large Language Models for Interoperability in Recommender Systems はコメントを受け付けていません

A Stability Principle for Learning under Non-Stationarity

要約

非定常環境での統計学習のための汎用性の高いフレームワークを開発します。
各期間において、私たちのアプローチは安定性の原理を適用して、累積データの利用を最大化しながら、累積バイアスを確率的誤差と比較して許容範囲内に保持します。
私たちの理論と数値実験は、このアプローチの未知の非定常性への適応性を示しています。
母集団の損失が強く凸状である場合、またはLipschitzのみである場合、対数因子まで最適な最適な後悔の範囲を証明します。
分析の中心には、2つの新しいコンポーネントがあります。機能と、非定常データシーケンスを準定常断片に分割するためのセグメンテーション手法の類似性の尺度です。

要約(オリジナル)

We develop a versatile framework for statistical learning in non-stationary environments. In each time period, our approach applies a stability principle to select a look-back window that maximizes the utilization of historical data while keeping the cumulative bias within an acceptable range relative to the stochastic error. Our theory and numerical experiments showcase the adaptivity of this approach to unknown non-stationarity. We prove regret bounds that are minimax optimal up to logarithmic factors when the population losses are strongly convex, or Lipschitz only. At the heart of our analysis lie two novel components: a measure of similarity between functions and a segmentation technique for dividing the non-stationary data sequence into quasi-stationary pieces.

arxiv情報

著者 Chengpiao Huang,Kaizheng Wang
発行日 2025-02-12 17:02:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 90C15, cs.AI, cs.LG, math.OC, stat.ML | A Stability Principle for Learning under Non-Stationarity はコメントを受け付けていません

COAST: Intelligent Time-Adaptive Neural Operators

要約

因果言語モデル(CLM)フレームワークを活用してタイムステップを動的に適合させる、Adaptive Solver Transformer(Coast)を使用して因果演算子を紹介します。
私たちの方法は、システムの進化とその最適な時間ステップの両方を予測し、計算効率と精度のバランスを実現します。
海岸は、動的システム内および動的システムの両方で、基礎となるシステムの固有性と相関する可変ステップサイズを生成することがわかります。
単一の軌道内では、より複雑な地域ではより小さなステップが取られますが、より単純な領域ではより大きなステップが採用されています。
さまざまなシステムで、より複雑なダイナミクスがより詳細なタイムステップを受け取ります。
さまざまなダイナミクスを備えた多様なシステムでベンチマークされているコーストは、一貫して最先端の方法を上回り、効率と精度の両方で優れたパフォーマンスを達成します。
この作業は、動的システムのスケーラブルな演算子学習のためのCLMベースのインテリジェント適応ソルバーの可能性を強調しています。

要約(オリジナル)

We introduce Causal Operator with Adaptive Solver Transformer (COAST), a novel neural operator learning method that leverages a causal language model (CLM) framework to dynamically adapt time steps. Our method predicts both the evolution of a system and its optimal time step, intelligently balancing computational efficiency and accuracy. We find that COAST generates variable step sizes that correlate with the underlying system intrinsicities, both within and across dynamical systems. Within a single trajectory, smaller steps are taken in regions of high complexity, while larger steps are employed in simpler regions. Across different systems, more complex dynamics receive more granular time steps. Benchmarked on diverse systems with varied dynamics, COAST consistently outperforms state-of-the-art methods, achieving superior performance in both efficiency and accuracy. This work underscores the potential of CLM-based intelligent adaptive solvers for scalable operator learning of dynamical systems.

arxiv情報

著者 Zhikai Wu,Shiyang Zhang,Sizhuang He,Sifan Wang,Min Zhu,Anran Jiao,Lu Lu,David van Dijk
発行日 2025-02-12 17:09:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | COAST: Intelligent Time-Adaptive Neural Operators はコメントを受け付けていません

Mapping the Landscape of Generative AI in Network Monitoring and Management

要約

LLMS、GPTS、拡散モデルなどの生成人工知能(GENAI)モデルは、最近、研究と産業コミュニティの両方から広く注目されています。
この調査では、ネットワークの監視と管理におけるアプリケーションを調査し、顕著なユースケース、および課題と機会に焦点を当てています。
ネットワークトラフィックの生成と分類、ネットワーク侵入検出、ネットワーク化されたシステムログ分析、ネットワークデジタル支援が、Genaiモデルの使用からどのように恩恵を受けるかについて説明します。
さらに、利用可能なGenaiモデル、大規模なトレーニングフェーズのデータ​​セット、およびそのようなモデルの開発のためのプラットフォームの概要を説明します。
最後に、ネットワークの監視と管理のためにGenaiの採用に障害を緩和する可能性のある研究の方向性について説明します。
私たちの調査の目的は、現在の景観をマッピングし、ネットワークの監視と管理のためにGenaiを活用する将来の研究への道を開くことを目的としています。

要約(オリジナル)

Generative Artificial Intelligence (GenAI) models such as LLMs, GPTs, and Diffusion Models have recently gained widespread attention from both the research and the industrial communities. This survey explores their application in network monitoring and management, focusing on prominent use cases, as well as challenges and opportunities. We discuss how network traffic generation and classification, network intrusion detection, networked system log analysis, and network digital assistance can benefit from the use of GenAI models. Additionally, we provide an overview of the available GenAI models, datasets for large-scale training phases, and platforms for the development of such models. Finally, we discuss research directions that potentially mitigate the roadblocks to the adoption of GenAI for network monitoring and management. Our investigation aims to map the current landscape and pave the way for future research in leveraging GenAI for network monitoring and management.

arxiv情報

著者 Giampaolo Bovenzi,Francesco Cerasuolo,Domenico Ciuonzo,Davide Di Monda,Idio Guarino,Antonio Montieri,Valerio Persico,Antonio Pescapè
発行日 2025-02-12 17:10:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NI, I.2 | Mapping the Landscape of Generative AI in Network Monitoring and Management はコメントを受け付けていません

FBFL: A Field-Based Coordination Approach for Data Heterogeneity in Federated Learning

要約

過去数年間、Federated Learning(FL)は、プライバシーの懸念が高いドメインで機械学習モデルを訓練するための一般的なソリューションになりました。
ただし、FLのスケーラビリティとパフォーマンスは、デバイス間のデータが非依存的に同一に分散されている(非IID)である実際の展開において大きな課題に直面しています。
データ分布の不均一性は、デバイスの空間分布から頻繁に発生し、適切な取り扱いがない場合にモデルのパフォーマンスが低下します。
さらに、FL集中型アーキテクチャへの典型的な依存は、特に大規模または動的環境で問題となるボトルネックと単一の発信リスクを導入します。
このギャップを埋めるために、フィールドベースのフェデレートラーニング(FBFL)を提案します。これは、マクロプログラムとフィールド調整を活用してこれらの制限に対処するための新しいアプローチを提案します。
(ii)高度なマクロプログラムパターンを使用した自己組織化の階層アーキテクチャの構築。
さらに、FBFLは前述の制限を克服するだけでなく、各サブリージョンの特定のデータ分布に合わせたより専門的なモデルの開発を可能にします。
この論文は、FBFLを正式に形式化し、MNIST、FashionMnist、および拡張MNISTデータセットを使用して広範囲に評価します。
IIDデータ条件の下で動作する場合、FBFLは広く使用されているFedAVGアルゴリズムと同等に実行することを実証します。
さらに、非IIDシナリオに挑戦するにあたり、FBFLはFEDAVGを上回るだけでなく、他の最先端の方法、つまりFedProxと足場を上回ります。
さらに、サーバーの障害に対するFBFLの自己組織化階層アーキテクチャの回復力を紹介します。

要約(オリジナル)

In the last years, Federated learning (FL) has become a popular solution to train machine learning models in domains with high privacy concerns. However, FL scalability and performance face significant challenges in real-world deployments where data across devices are non-independently and identically distributed (non-IID). The heterogeneity in data distribution frequently arises from spatial distribution of devices, leading to degraded model performance in the absence of proper handling. Additionally, FL typical reliance on centralized architectures introduces bottlenecks and single-point-of-failure risks, particularly problematic at scale or in dynamic environments. To close this gap, we propose Field-Based Federated Learning (FBFL), a novel approach leveraging macroprogramming and field coordination to address these limitations through: (i) distributed spatial-based leader election for personalization to mitigate non-IID data challenges; and (ii) construction of a self-organizing, hierarchical architecture using advanced macroprogramming patterns. Moreover, FBFL not only overcomes the aforementioned limitations, but also enables the development of more specialized models tailored to the specific data distribution in each subregion. This paper formalizes FBFL and evaluates it extensively using MNIST, FashionMNIST, and Extended MNIST datasets. We demonstrate that, when operating under IID data conditions, FBFL performs comparably to the widely-used FedAvg algorithm. Furthermore, in challenging non-IID scenarios, FBFL not only outperforms FedAvg but also surpasses other state-of-the-art methods, namely FedProx and Scaffold, which have been specifically designed to address non-IID data distributions. Additionally, we showcase the resilience of FBFL’s self-organizing hierarchical architecture against server failures.

arxiv情報

著者 Davide Domini,Gianluca Aguzzi,Lukas Esterle,Mirko Viroli
発行日 2025-02-12 17:10:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | FBFL: A Field-Based Coordination Approach for Data Heterogeneity in Federated Learning はコメントを受け付けていません

Truthful Aggregation of LLMs with an Application to Online Advertising

要約

オンライン広告の次のフロンティアは、LLM生成コンテンツからの収益生成です。
広告主がLLMの応答に影響を与えて興味と一致するようにする設定を検討し、プラットフォームは広告主の価値を最大化し、ユーザーの満足度を確保しようとします。
課題は、一般に広告主の好みがユーザーの好みと矛盾しており、広告主は自分の好みを誤って宣言する可能性があることです。
これに対処するために、真実の報告が広告主にとって支配的な戦略であることを保証し、各広告主の有用性を社会福祉への貢献を確実にするオークションメカニズムであるモザイクを紹介します。
重要なことに、メカニズムはLLMの微調整またはモデルの重みへのアクセスなしで動作し、計算リソースが増加するにつれて最適に微調整されたLLMの出力に確実に収束することです。
さらに、広告主に関するコンテキスト情報を組み込むことができ、これにより社会福祉が大幅に向上します。
公開されているLLMを使用した実験を通じて、モザイクが高い広告主の価値と計算オーバーヘッドの低いプラットフォームの収益につながることを示します。
私たちのやる気のあるアプリケーションはオンライン広告ですが、私たちのメカニズムは、金銭的転送を備えたあらゆる設定で適用でき、LLMが生成した応答よりも利己的なエージェントの好みを誠実に集約するための汎用ソリューションになります。

要約(オリジナル)

The next frontier of online advertising is revenue generation from LLM-generated content. We consider a setting where advertisers aim to influence the responses of an LLM to align with their interests, while platforms seek to maximize advertiser value and ensure user satisfaction. The challenge is that advertisers’ preferences generally conflict with those of the user, and advertisers may misreport their preferences. To address this, we introduce MOSAIC, an auction mechanism that ensures that truthful reporting is a dominant strategy for advertisers and that aligns the utility of each advertiser with their contribution to social welfare. Importantly, the mechanism operates without LLM fine-tuning or access to model weights and provably converges to the output of the optimally fine-tuned LLM as computational resources increase. Additionally, it can incorporate contextual information about advertisers, which significantly improves social welfare. Through experiments with a publicly available LLM, we show that MOSAIC leads to high advertiser value and platform revenue with low computational overhead. While our motivating application is online advertising, our mechanism can be applied in any setting with monetary transfers, making it a general-purpose solution for truthfully aggregating the preferences of self-interested agents over LLM-generated replies.

arxiv情報

著者 Ermis Soumalias,Michael J. Curry,Sven Seuken
発行日 2025-02-12 17:10:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT | Truthful Aggregation of LLMs with an Application to Online Advertising はコメントを受け付けていません