Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering

要約

大規模言語モデル(LLM)の、より忠実で追跡可能な解答に向けた進歩は、様々な研究や実用的な試みにとって極めて重要である。この目標に到達するための1つの手段は、信頼できる情報源に基づく回答です。しかし、このエビデンスに基づくQAは、正しいソースを引用する(ソースの質)、ソース内の情報を忠実に表現する(解答の帰属可能性)という点で、LLMでは十分に機能しないことが証明されている。本研究では、LLMをロバストに微調整し、ソースの品質と解答の帰属性を向上させる方法を体系的に検討する。具体的には、自動化されたデータ品質フィルタを備えたデータ生成パイプラインを導入し、多様で高品質な学習データとテストデータを大規模に合成することができる。さらに、ファインチューニングされた専門家モデルの頑健性をベンチマークするために、4つのテストセットを導入する。広範な評価により、合成データ上でファインチューニングを行うことで、分布内と分布外の両方で性能が向上することが示された。さらに、Evidence-Based QAを改善するためには、提案する品質フィルターによって劇的に改善できるデータの品質が、量よりも重要であることを示す。

要約(オリジナル)

Advances towards more faithful and traceable answers of Large Language Models (LLMs) are crucial for various research and practical endeavors. One avenue in reaching this goal is basing the answers on reliable sources. However, this Evidence-Based QA has proven to work insufficiently with LLMs in terms of citing the correct sources (source quality) and truthfully representing the information within sources (answer attributability). In this work, we systematically investigate how to robustly fine-tune LLMs for better source quality and answer attributability. Specifically, we introduce a data generation pipeline with automated data quality filters, which can synthesize diversified high-quality training and testing data at scale. We further introduce four test sets to benchmark the robustness of fine-tuned specialist models. Extensive evaluation shows that fine-tuning on synthetic data improves performance on both in- and out-of-distribution. Furthermore, we show that data quality, which can be drastically improved by proposed quality filters, matters more than quantity in improving Evidence-Based QA.

arxiv情報

著者 Tobias Schimanski,Jingwei Ni,Mathias Kraus,Elliott Ash,Markus Leippold
発行日 2024-06-03 16:48:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク