要約
大規模言語モデル (LLM) は、さまざまなタスクの貴重なアシスタントとして急速に普及しました。
ただし、その有効性は、パーソナライゼーションを通じて人間の好みや行動に合わせて反応を調整する能力によって制限されます。
LLM パーソナライゼーションにおけるこれまでの研究は、知識の注入が依然として未解決の課題であるため、スタイルの転送やユーザーに関する小さな事実の組み込みに主に焦点を当てていました。
このペーパーでは、以前の会話の知識を LLM に注入して、冗長性の少ないパーソナライズされた会話に今後取り組むことができるようにすることを検討します。
私たちは現実世界の 2 つの制約を特定します。(1) 会話は時間的に連続しているため、トレーニング中も同様に扱う必要があります。(2) ユーザーごとのパーソナライゼーションは、パラメーター効率の高い設定でのみ実行可能です。
この目的のために、私たちは、質問と回答のペアとして会話をアップサンプリングするためのデータ拡張を実行するパイプラインである PLUM を提案します。これは、重み付けされたクロスエントロピー損失を使用して低ランク適応アダプターを微調整するために使用されます。
この問題の最初の調査でも、RAG などのベースラインと競合するパフォーマンスを示し、100 回の会話にわたって 81.5% の精度を達成しました。
要約(オリジナル)
Large Language Models (LLMs) have quickly become an invaluable assistant for a variety of tasks. However, their effectiveness is constrained by their ability to tailor responses to human preferences and behaviors via personalization. Prior work in LLM personalization has largely focused on style transfer or incorporating small factoids about the user, as knowledge injection remains an open challenge. In this paper, we explore injecting knowledge of prior conversations into LLMs to enable future work on less redundant, personalized conversations. We identify two real-world constraints: (1) conversations are sequential in time and must be treated as such during training, and (2) per-user personalization is only viable in parameter-efficient settings. To this aim, we propose PLUM, a pipeline performing data augmentation for up-sampling conversations as question-answer pairs, that are then used to finetune a low-rank adaptation adapter with a weighted cross entropy loss. Even in this first exploration of the problem, we perform competitively with baselines such as RAG, attaining an accuracy of 81.5% across 100 conversations.
arxiv情報
著者 | Lucie Charlotte Magister,Katherine Metcalf,Yizhe Zhang,Maartje ter Hoeve |
発行日 | 2024-11-20 15:45:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google