要約
既存の設定調整は、汎用的な調整メカニズムであり、非優先機能を含む大規模言語モデル (LLM) パラメトリック知識の一部がすべてのユーザーに対して一律にブロックされます。
ただし、この部分の知識は、専門知識を持ってこれらの情報を扱うことができる上級ユーザーにとっては役立ちます。
画一的な調整メカニズムは、これらの資格のあるユーザーにとって LLM の有用性を損ないます。
この問題に対処するために、私たちは SudoLM を提案します。これは、LLM が、認可調整を通じて、異なる資格情報を持つユーザーの特定のパラメトリック知識に対するアクセス制御を学習できるようにするフレームワークです。
SudoLM を使用すると、権限のあるユーザーは、割り当てられた SUDO キーを使用してすべてのパラメトリック ナレッジへのアクセスのロックを解除し、資格のないユーザーのアクセスをブロックできます。
2 つのアプリケーション シナリオに関する実験では、SudoLM がパラメトリック知識へのユーザーのアクセスを効果的に制御し、その一般的な有用性を維持することを実証しました。
要約(オリジナル)
Existing preference alignment is a one-size-fits-all alignment mechanism, where the part of the large language model (LLM) parametric knowledge with non-preferred features is uniformly blocked to all the users. However, this part of knowledge can be useful to advanced users whose expertise qualifies them to handle these information. The one-size-fits-all alignment mechanism undermines LLM’s utility for these qualified users. To address this problem, we propose SudoLM, a framework that lets LLMs learn access control over specific parametric knowledge for users with different credentials via authorization alignment. SudoLM allows authorized users to unlock their access to all the parametric knowledge with an assigned SUDO key while blocking access to non-qualified users. Experiments on two application scenarios demonstrate that SudoLM effectively controls the user’s access to the parametric knowledge and maintains its general utility.
arxiv情報
著者 | Qin Liu,Fei Wang,Chaowei Xiao,Muhao Chen |
発行日 | 2024-10-18 17:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google