要約
自然言語処理 (NLP) の最近の進歩により、大規模言語モデル (LLM) を現実世界のシナリオに適用するという新しい傾向が生まれています。
最新の LLM は、人間と対話する際には驚くほど流暢ですが、意図せずに事実に反する記述を生成するという誤った情報の問題に悩まされています。
これは、特に医療などの機密性の高い状況で生成された場合、有害な結果を引き起こす可能性があります。
しかし、これまでの研究では、特に知識集約的なトピックに関して、LLM の長形式 (LF) 生成における誤った情報の評価に焦点を当てたものはほとんどありませんでした。
さらに、LLM はさまざまな言語で良好に機能することが示されていますが、誤った情報の評価は主に英語で行われています。
この目的を達成するために、以下の分野における LLM の誤った情報を評価するためのベンチマーク CARE-MI を提示します。 1) デリケートな話題、特に産科と乳児のケアの分野。
2) 英語以外の言語、つまり中国語。
最も重要なことは、他の知識集約型ドメインやリソースの少ない言語に転用できる、LF 生成評価ベンチマークを構築するための革新的なパラダイムを提供していることです。
私たちが提案するベンチマークは、LLM の広範な使用と、これらのモデルによって生成された誤った情報を評価するためのデータセットの欠如との間のギャップを埋めます。
専門家がチェックした 1,612 の質問が含まれており、人間が選んだ参考文献も付いています。
私たちのベンチマークを使用して広範な実験を行ったところ、現在の中国の LLM は産科と乳児のケアというテーマにおいて完璧には程遠いことがわかりました。
パフォーマンス評価における人的リソースへの依存を最小限に抑えるため、当社では、ベンチマーク質問が与えられた LLM の LF 出力を自動的に評価する既製の判定モデルを提供しています。
さらに、LF 生成評価のための潜在的なソリューションを比較し、より優れた自動化メトリクスを構築するための洞察を提供します。
要約(オリジナル)
The recent advances in natural language processing (NLP), have led to a new trend of applying large language models (LLMs) to real-world scenarios. While the latest LLMs are astonishingly fluent when interacting with humans, they suffer from the misinformation problem by unintentionally generating factually false statements. This can lead to harmful consequences, especially when produced within sensitive contexts, such as healthcare. Yet few previous works have focused on evaluating misinformation in the long-form (LF) generation of LLMs, especially for knowledge-intensive topics. Moreover, although LLMs have been shown to perform well in different languages, misinformation evaluation has been mostly conducted in English. To this end, we present a benchmark, CARE-MI, for evaluating LLM misinformation in: 1) a sensitive topic, specifically the maternity and infant care domain; and 2) a language other than English, namely Chinese. Most importantly, we provide an innovative paradigm for building LF generation evaluation benchmarks that can be transferred to other knowledge-intensive domains and low-resourced languages. Our proposed benchmark fills the gap between the extensive usage of LLMs and the lack of datasets for assessing the misinformation generated by these models. It contains 1,612 expert-checked questions, accompanied with human-selected references. Using our benchmark, we conduct extensive experiments and found that current Chinese LLMs are far from perfect in the topic of maternity and infant care. In an effort to minimize the reliance on human resources for performance evaluation, we offer off-the-shelf judgment models for automatically assessing the LF output of LLMs given benchmark questions. Moreover, we compare potential solutions for LF generation evaluation and provide insights for building better automated metrics.
arxiv情報
著者 | Tong Xiang,Liangzhi Li,Wangyue Li,Mingbai Bai,Lu Wei,Bowen Wang,Noa Garcia |
発行日 | 2023-08-31 09:39:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google