要約
言語モデルはより洗練され、多様なユーザーによって適応されるため、検証可能な情報源に裏付けられた事実に基づいた正しい情報を言語モデルが提供することを保証することの重要性は、研究分野や専門分野全体にわたって非常に重要です。
これは、誤った情報が伝播するリスクが高く、望ましくない社会的結果を引き起こす可能性がある医学や法律など、一か八かの分野に特に当てはまります。
事実性と帰属を研究するこれまでの研究では、ドメイン固有のシナリオにおける言語モデル出力のこれらの特性の分析に焦点を当てていませんでした。
この研究では、分野の専門家を巻き込んで、いくつかのシステムからの応答で提供された事実と帰属のさまざまな軸を分析した評価研究を紹介します。
具体的には、まず 32 の研究分野にわたる 484 人の参加者から専門家が厳選した質問を収集し、次に同じ専門家に、独自の質問に対して生成された回答を評価するよう依頼します。
また、言語モデルによって生成された回答を修正するよう専門家に依頼します。これにより、検証済みの回答と回答内の主張の帰属とともに、32 分野にわたる 2177 の質問を含む高品質な長文 QA データセットである ExpertQA が作成されます。
要約(オリジナル)
As language models are adapted by a more sophisticated and diverse set of users, the importance of guaranteeing that they provide factually correct information supported by verifiable sources is critical across fields of study & professions. This is especially the case for high-stakes fields, such as medicine and law, where the risk of propagating false information is high and can lead to undesirable societal consequences. Previous work studying factuality and attribution has not focused on analyzing these characteristics of language model outputs in domain-specific scenarios. In this work, we present an evaluation study analyzing various axes of factuality and attribution provided in responses from a few systems, by bringing domain experts in the loop. Specifically, we first collect expert-curated questions from 484 participants across 32 fields of study, and then ask the same experts to evaluate generated responses to their own questions. We also ask experts to revise answers produced by language models, which leads to ExpertQA, a high-quality long-form QA dataset with 2177 questions spanning 32 fields, along with verified answers and attributions for claims in the answers.
arxiv情報
著者 | Chaitanya Malaviya,Subin Lee,Sihao Chen,Elizabeth Sieber,Mark Yatskar,Dan Roth |
発行日 | 2023-09-14 16:54:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google