要約
大規模言語モデル (LLM) の驚くべき生成機能により、さまざまなアプリケーションに対する応答を自動的に生成することへの関心が高まっています。
ユーザーの好みの動的な性質と LLM 応答パフォーマンスの不確実性を考慮すると、最適な LLM 応答 (つまり、ユーザーの好みも満たす高品質の応答) を特定するための効率的なオンライン学習アルゴリズムを設計することが重要です。
既存のオンライン アルゴリズムのほとんどは集中型アプローチを採用しており、より効率的でパーソナライズされた LLM 応答を識別するための明示的なユーザー設定を活用できません。
対照的に、この論文では \textit{MACO} (\underline{M}ulti-\underline{A}gent \underline{C}onversational \underline{O}nline Learning for Adaptive LLM Response Identification) を紹介します。 1) オンライン LLM
応答識別プロセスは、データのプライバシーを強化しながら、複数のローカル エージェント (スマートフォンなど) によって高速化されます。
2) 嗜好推定の不確実性を最小限に抑えるために、ユーザーの好み(生成された応答では深刻なトーンよりもユーモラスなトーンの好みなど)を求める会話を適応的に実行するための新しい会話メカニズムが提案されています。
私たちの理論分析は、累積後悔に関して \cadi\ が最適に近いことを示しています。
さらに、\cadi\ は、以前の作品に見られた従来のコンピューティング集約型の「G 最適設計」を排除することで、通信コストと計算の複雑さを削減します。
オープン LLM \textit{Llama} と、テキスト ベクトル表現用の Google および OpenAI の 2 つの異なる埋め込みモデルを組み合わせた広範な実験により、\cadi\ が現在の最先端のオンライン LLM 応答識別よりも大幅に優れていることが実証されました。
要約(オリジナル)
The remarkable generative capability of large language models (LLMs) has sparked a growing interest in automatically generating responses for different applications. Given the dynamic nature of user preferences and the uncertainty of LLM response performance, it is crucial to design efficient online learning algorithms to identify optimal LLM responses (i.e., high-quality responses that also meet user preferences). Most existing online algorithms adopt a centralized approach and fail to leverage explicit user preferences for more efficient and personalized LLM response identification. In contrast, this paper introduces \textit{MACO} (\underline{M}ulti-\underline{A}gent \underline{C}onversational \underline{O}nline Learning for Adaptive LLM Response Identification): 1) The online LLM response identification process is accelerated by multiple local agents (such as smartphones), while enhancing data privacy; 2) A novel conversational mechanism is proposed to adaptively conduct conversations for soliciting user preferences (e.g., a preference for a humorous tone over a serious one in generated responses), so to minimize uncertainty in preference estimation. Our theoretical analysis demonstrates that \cadi\ is near-optimal regarding cumulative regret. Additionally, \cadi\ offers reduced communication costs and computational complexity by eliminating the traditional, computing-intensive “G-optimal design’ found in previous works. Extensive experiments with the open LLM \textit{Llama}, coupled with two different embedding models from Google and OpenAI for text vector representation, demonstrate that \cadi\ significantly outperforms the current state-of-the-art in online LLM response identification.
arxiv情報
著者 | Xiangxiang Dai,Yuejin Xie,Maoli Liu,Xuchuang Wang,Zhuohua Li,Huanyu Wang,John C. S. Lui |
発行日 | 2025-01-03 14:59:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google