Questioning the Survey Responses of Large Language Models

要約

大規模な言語モデルの機能が向上するにつれて、研究者はさまざまな科学的動機を持ってこれらのモデルについてあらゆる種類の調査を実施し始めています。
この研究では、米国国勢調査局による確立された American Community Survey (ACS) に基づいて、モデルの調査回答から何が学べるかを検証します。
数億から百億のパラメーターまでサイズが異なる十数種類の異なるモデルを、ACS からの質問に対してそれぞれ数十万回ずつ評価し、体系的に 2 つの支配的なパターンを確立しました。
まず、小規模なモデルには、たとえば文字「A」でラベル付けされた調査回答に対して、重大な位置とラベル付けのバイアスがあります。
この A バイアスは、モデルのサイズが大きくなるにつれて、ゆっくりとはいえ減少します。
第 2 に、ランダム化された回答の順序付けを通じてこのラベル付けバイアスを調整しても、モデルは依然として米国の人口統計や認識可能な集団の統計に向かう傾向がありません。
むしろ、モデル全体では、調査回答に対する一様にランダムな集計統計に向かう傾向があります。
このパターンは、事実上の標準を含む、モデルをプロンプトするさまざまな方法に対して堅牢です。
私たちの調査結果は、言語モデルの調査回答の集計統計には、人間の母集団で見られるシグナルが欠けていることを示しています。
この統計シグナルの欠如は、現時点で大規模な言語モデルからの調査回答の使用について警告します。

要約(オリジナル)

As large language models increase in capability, researchers have started to conduct surveys of all kinds on these models with varying scientific motivations. In this work, we examine what we can learn from a model’s survey responses on the basis of the well-established American Community Survey (ACS) by the U.S. Census Bureau. Evaluating more than a dozen different models, varying in size from a few hundred million to ten billion parameters, hundreds of thousands of times each on questions from the ACS, we systematically establish two dominant patterns. First, smaller models have a significant position and labeling bias, for example, towards survey responses labeled with the letter ‘A’. This A-bias diminishes, albeit slowly, as model size increases. Second, when adjusting for this labeling bias through randomized answer ordering, models still do not trend toward US population statistics or those of any cognizable population. Rather, models across the board trend toward uniformly random aggregate statistics over survey responses. This pattern is robust to various different ways of prompting the model, including what is the de-facto standard. Our findings demonstrate that aggregate statistics of a language model’s survey responses lack the signals found in human populations. This absence of statistical signal cautions about the use of survey responses from large language models at present time.

arxiv情報

著者 Ricardo Dominguez-Olmedo,Moritz Hardt,Celestine Mendler-Dünner
発行日 2023-06-13 17:48:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク