Fine-tuning Language Models for Factuality

要約

大規模な事前トレーニング済み言語モデル (LLM) の流暢さと創造性により、LLM は広く使用され、場合によっては従来の検索エンジンの代替としても使用されています。
しかし、言語モデルは、説得力はあるものの事実としては不正確な主張をする傾向があり、しばしば「幻覚」と呼ばれます。
これらのエラーは、誤って誤った情報を広めたり、有害な誤解を永続させたりする可能性があります。
さらに、モデル応答の手動による事実確認は時間のかかるプロセスであり、人間による事実ラベルの取得に費用がかかります。
この作業では、人間によるラベル付けを行わず、過去の作業よりもより自由な生成設定をターゲットにしながら、言語モデルをより事実に沿ったものになるよう微調整しています。
これを実現するために、NLP における 2 つの重要な最近のイノベーションを活用しています。
まず、いくつかの最近の研究では、外部の知識ベースまたは単に大規模なモデルの信頼スコアとの一貫性を測定することによって、自由形式のテキストの事実性を判断する方法が提案されています。
第 2 に、直接選好最適化アルゴリズムにより、可能なモデル応答に対する選好ランキングを使用して、教師あり模倣以外の目的で言語モデルを簡単に微調整できます。
既存の検索システムまたは検索を必要としない新しいアプローチを通じて生成された、自動的に生成された事実性優先ランキングから学習することにより、保留されたトピックに関する Llama-2 の事実性 (生成された主張が正しい割合) が RLHF と比較して大幅に向上することを示します。
または事実をターゲットにした解読戦略。
7B スケールでは、Llama-2-chat と比較して、経歴の作成時と医療上の質問に答える際の事実誤認率がそれぞれ 58% と 40% 減少したことが観察されました。

要約(オリジナル)

The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as ‘hallucinations.’ These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model’s confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.

arxiv情報

著者 Katherine Tian,Eric Mitchell,Huaxiu Yao,Christopher D. Manning,Chelsea Finn
発行日 2023-11-14 18:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク