要約
検索補強生成(RAG)は大規模言語モデル(LLM)出力の事実性を高めることが示されているが、LLMは依然として幻覚に悩まされ、誤った情報や無関係な情報を生成する。一般的な検出戦略の1つは、LLMの応答が検索された証拠に根拠があるかどうかを評価するために、LLMに再度プロンプトを出すことであるが、このアプローチはコストがかかる。代わりに、効率的な根拠検証のための軽量な自然言語推論(NLI)モデルを推論時に使用することができる。既存の事前訓練されたNLIモデルは潜在的な解決策を提供するが、その性能は現実的なRAG入力における大規模なモデルに比べて劣っている。RAG入力は、NLIモデルの訓練に使用されるほとんどのデータセットよりも複雑であり、基礎となる知識ベース特有の特性を持っているため、NLIモデルを特定のターゲットドメインに適応させる必要がある。さらに、ターゲットドメインにはラベル付けされたインスタンスがないため、ファインチューニングなどによる教師ありドメイン適応は不可能である。これらの課題に対処するために、我々は自動生成ドメイン適応(Auto-GDA)を導入する。我々のフレームワークは、合成データ生成による教師なしドメイン適応を可能にする。手作業によるフィルタリングや補強戦略に依存する従来の手法とは異なり、Auto-GDAは、効率性の低い教師モデルからの弱いラベルと、最も有望な補強サンプルを選択するための離散最適化を用いて、生成されたサンプルの品質を継続的に改善する反復プロセスを採用する。実験結果は我々のアプローチの有効性を示しており、Auto-GDAを用いて合成データ上で微調整されたモデルは、しばしば教師モデルの性能を上回り、計算コストの10%でLLMの性能レベルに達する。
要約(オリジナル)
While retrieval augmented generation (RAG) has been shown to enhance factuality of large language model (LLM) outputs, LLMs still suffer from hallucination, generating incorrect or irrelevant information. One common detection strategy involves prompting the LLM again to assess whether its response is grounded in the retrieved evidence, but this approach is costly. Alternatively, lightweight natural language inference (NLI) models for efficient grounding verification can be used at inference time. While existing pre-trained NLI models offer potential solutions, their performance remains subpar compared to larger models on realistic RAG inputs. RAG inputs are more complex than most datasets used for training NLI models and have characteristics specific to the underlying knowledge base, requiring adaptation of the NLI models to a specific target domain. Additionally, the lack of labeled instances in the target domain makes supervised domain adaptation, e.g., through fine-tuning, infeasible. To address these challenges, we introduce Automatic Generative Domain Adaptation (Auto-GDA). Our framework enables unsupervised domain adaptation through synthetic data generation. Unlike previous methods that rely on handcrafted filtering and augmentation strategies, Auto-GDA employs an iterative process to continuously improve the quality of generated samples using weak labels from less efficient teacher models and discrete optimization to select the most promising augmented samples. Experimental results demonstrate the effectiveness of our approach, with models fine-tuned on synthetic data using Auto-GDA often surpassing the performance of the teacher model and reaching the performance level of LLMs at 10 % of their computational cost.
arxiv情報
著者 | Tobias Leemann,Periklis Petridis,Giuseppe Vietri,Dionysis Manousakas,Aaron Roth,Sergul Aydore |
発行日 | 2024-10-04 14:21:27+00:00 |
arxivサイト | arxiv_id(pdf) |