要約
大規模言語モデル (LLM) の台頭と、さまざまなドメインでのユビキタスな展開により、現実的なデータで言語モデルの動作を測定することが不可欠になっています。
たとえば、クライアント向けチャットボットを導入している企業は、モデルがクライアントのリクエストに冒涜的な言葉で応答しないことを保証する必要があります。
現在の評価では、人間が厳選したラベルを備えた小規模なドメイン固有のデータセットを使用して、この問題に取り組んでいます。
これらの評価セットは、狭く単純化された分布からサンプリングされることが多く、データ ソースが知らず知らずのうちにトレーニング セットに漏洩し、誤解を招く評価につながる可能性があります。
これらの欠点を回避するために、入力テキストの変換に対する LLM の感度または不変性を分析することにより、LLM を自己教師ありで評価するためのフレームワークを提案します。
自己監視型評価では、実際に収集されたデータセットまたはライブ モデルの展開中にストリーミングされたデータセットに対する LLM の動作を直接監視できます。
私たちは、文法構造やトークン化エラーに対する感度に加えて、閉じられた本の知識、毒性、および広範囲の文脈依存性を測定するための自己教師あり評価戦略を実証します。
人間がラベルを付けた同様のベンチマークとの比較が可能な場合、自己教師による評価と人間による教師による評価の間には強い相関関係があることがわかります。
自己教師ありパラダイムは、ラベル付きデータに依存する現在の評価戦略を補完します。
要約(オリジナル)
With the rise of Large Language Models (LLMs) and their ubiquitous deployment in diverse domains, measuring language model behavior on realistic data is imperative. For example, a company deploying a client-facing chatbot must ensure that the model will not respond to client requests with profanity. Current evaluations approach this problem using small, domain-specific datasets with human-curated labels. These evaluation sets are often sampled from a narrow and simplified distribution, and data sources can unknowingly be leaked into the training set which can lead to misleading evaluations. To bypass these drawbacks, we propose a framework for self-supervised evaluation of LLMs by analyzing their sensitivity or invariance to transformations on the input text. Self-supervised evaluation can directly monitor LLM behavior on datasets collected in the wild or streamed during live model deployment. We demonstrate self-supervised evaluation strategies for measuring closed-book knowledge, toxicity, and long-range context dependence, in addition to sensitivity to grammatical structure and tokenization errors. When comparisons to similar human-labeled benchmarks are available, we find strong correlations between self-supervised and human-supervised evaluations. The self-supervised paradigm complements current evaluation strategies that rely on labeled data.
arxiv情報
著者 | Neel Jain,Khalid Saifullah,Yuxin Wen,John Kirchenbauer,Manli Shu,Aniruddha Saha,Micah Goldblum,Jonas Geiping,Tom Goldstein |
発行日 | 2023-06-23 17:59:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google