Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering

要約

大規模言語モデル (LLM) のより忠実で追跡可能な答えへの進歩は、さまざまな研究や実践的な取り組みにとって非常に重要です。
この目標を達成するための 1 つの方法は、信頼できる情報源に基づいて回答を得るということです。
ただし、この証拠に基づく QA は、正しいソースの引用 (ソースの品質) とソース内の情報の誠実な表現 (回答の帰属性) の点で、LLM に対して不十分に機能することが証明されています。
この研究では、ソースの品質を向上させ、帰属可能性に答えるために LLM を確実に微調整する方法を系統的に調査します。
具体的には、自動化されたデータ品質フィルターを備えたデータ生成パイプラインを導入し、多様な高品質のトレーニング データとテスト データを大規模に合成できます。
さらに、微調整された専門モデルの堅牢性をベンチマークする 4 つのテスト セットを紹介します。
広範な評価により、合成データを微調整すると、ディストリビューション内とディストリビューション外の両方でパフォーマンスが向上することがわかりました。
さらに、証拠に基づく QA を改善するには、提案された品質フィルターによって大幅に改善できるデータの品質が量よりも重要であることを示します。

要約(オリジナル)

Advances towards more faithful and traceable answers of Large Language Models (LLMs) are crucial for various research and practical endeavors. One avenue in reaching this goal is basing the answers on reliable sources. However, this Evidence-Based QA has proven to work insufficiently with LLMs in terms of citing the correct sources (source quality) and truthfully representing the information within sources (answer attributability). In this work, we systematically investigate how to robustly fine-tune LLMs for better source quality and answer attributability. Specifically, we introduce a data generation pipeline with automated data quality filters, which can synthesize diversified high-quality training and testing data at scale. We further introduce four test sets to benchmark the robustness of fine-tuned specialist models. Extensive evaluation shows that fine-tuning on synthetic data improves performance on both in- and out-of-distribution. Furthermore, we show that data quality, which can be drastically improved by proposed quality filters, matters more than quantity in improving Evidence-Based QA.

arxiv情報

著者 Tobias Schimanski,Jingwei Ni,Mathias Kraus,Elliott Ash,Markus Leippold
発行日 2024-02-26 11:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク