要約
言語モデルのユーザーは、仕様のないクエリを発行することがよくあります。つまり、クエリが発行されたコンテキスト (ユーザーの ID、クエリの意図、応答が有用であるための基準など) が明示的ではありません。
たとえば、「次はどの本を読むべきですか?」のような主観的な質問に対する適切な応答です。
ユーザーの好みと、「抗生物質は細菌に対してどのように作用しますか?」のような自由形式の質問に対する適切な応答は、ユーザーの好みによって決まります。
ユーザーの専門知識に依存します。
このため、評価者が応答の品質について恣意的な判断を下す可能性があるため、このようなクエリに対する応答の評価は不適切なタスクになります。
これを解決するために、コンテキスト化された評価を提案します。これは、指定されていないクエリの周囲のコンテキストを合成的に構築し、評価中にそれを提供するプロトコルです。
コンテキストの存在により、1) 評価から導き出される結論が変わり、モデルペア間の勝率が逆転することさえあり、2) スタイルなどの表面レベルの基準に基づく判断が少なくなるように評価者を誘導し、3) モデルに関する新しい洞察を提供できることがわかりました。
多様なコンテキストにわたる行動。
具体的には、私たちの手順では、モデルの「デフォルト」応答における WEIRD コンテキストに対する暗黙のバイアスが明らかになり、モデルは、プロンプトで提供されている場合でも、異なるコンテキストに従うことに対して同等に敏感ではないことがわかります。
要約(オリジナル)
Language model users often issue queries that lack specification, where the context under which a query was issued — such as the user’s identity, the query’s intent, and the criteria for a response to be useful — is not explicit. For instance, a good response to a subjective query like ‘What book should I read next?’ would depend on the user’s preferences, and a good response to an open-ended query like ‘How do antibiotics work against bacteria?’ would depend on the user’s expertise. This makes evaluation of responses to such queries an ill-posed task, as evaluators may make arbitrary judgments about the response quality. To remedy this, we present contextualized evaluations, a protocol that synthetically constructs context surrounding an underspecified query and provides it during evaluation. We find that the presence of context can 1) alter conclusions drawn from evaluation, even flipping win rates between model pairs, 2) nudge evaluators to make fewer judgments based on surface-level criteria, like style, and 3) provide new insights about model behavior across diverse contexts. Specifically, our procedure uncovers an implicit bias towards WEIRD contexts in models’ ‘default’ responses and we find that models are not equally sensitive to following different contexts, even when they are provided in prompts.
arxiv情報
著者 | Chaitanya Malaviya,Joseph Chee Chang,Dan Roth,Mohit Iyyer,Mark Yatskar,Kyle Lo |
発行日 | 2024-11-11 18:58:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google