要約
大規模言語モデル (LLM) は、社会問題に関する多様なグローバルな視点を公平に表現できない場合があります。
この論文では、モデルによって生成された応答が誰の意見により類似しているかを評価するための定量的フレームワークを開発します。
まず、さまざまな国にわたる地球規模の問題に関する多様な意見を収集するために設計された、国境を越えた調査からの質問と回答で構成されるデータセット GlobalOpinionQA を構築します。
次に、国を条件として、LLM が生成した調査回答と人間の回答の間の類似性を定量化する指標を定義します。
私たちのフレームワークを使用して、Constitutional AI で役に立ち、正直で、無害になるように訓練された LLM で 3 つの実験を実行します。
デフォルトでは、LLM の回答は、米国、一部のヨーロッパおよび南米諸国などの特定の集団の意見により似ている傾向があり、バイアスの可能性が強調されています。
モデルに特定の国の視点を考慮するよう促すと、反応は促された集団の意見により近いものに変化しますが、有害な文化的固定観念を反映する可能性があります。
GlobalOpinionQA の質問をターゲット言語に翻訳する場合、モデルの応答がそれらの言語の話者の意見に最も似ているとは限りません。
他の人が使用したり構築したりできるように、データセットをリリースします。
私たちのデータは https://huggingface.co/datasets/Anthropic/llm_global_opinions にあります。
https://llmglobalvalues.anthropic.com では、インタラクティブな視覚化も提供しています。
要約(オリジナル)
Large language models (LLMs) may not equitably represent diverse global perspectives on societal issues. In this paper, we develop a quantitative framework to evaluate whose opinions model-generated responses are more similar to. We first build a dataset, GlobalOpinionQA, comprised of questions and answers from cross-national surveys designed to capture diverse opinions on global issues across different countries. Next, we define a metric that quantifies the similarity between LLM-generated survey responses and human responses, conditioned on country. With our framework, we run three experiments on an LLM trained to be helpful, honest, and harmless with Constitutional AI. By default, LLM responses tend to be more similar to the opinions of certain populations, such as those from the USA, and some European and South American countries, highlighting the potential for biases. When we prompt the model to consider a particular country’s perspective, responses shift to be more similar to the opinions of the prompted populations, but can reflect harmful cultural stereotypes. When we translate GlobalOpinionQA questions to a target language, the model’s responses do not necessarily become the most similar to the opinions of speakers of those languages. We release our dataset for others to use and build on. Our data is at https://huggingface.co/datasets/Anthropic/llm_global_opinions. We also provide an interactive visualization at https://llmglobalvalues.anthropic.com.
arxiv情報
著者 | Esin Durmus,Karina Nyugen,Thomas I. Liao,Nicholas Schiefer,Amanda Askell,Anton Bakhtin,Carol Chen,Zac Hatfield-Dodds,Danny Hernandez,Nicholas Joseph,Liane Lovitt,Sam McCandlish,Orowa Sikder,Alex Tamkin,Janel Thamkul,Jared Kaplan,Jack Clark,Deep Ganguli |
発行日 | 2023-06-28 17:31:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google