Improving Retrieval Augmented Language Model with Self-Reasoning

要約

検索拡張言語モデル (RALM) は、推論中に外部知識を組み込むことにより、知識集約型タスクで顕著なパフォーマンスを示し、大規模言語モデル (LLM) に継承される事実上の幻覚を軽減します。
これらの進歩にもかかわらず、RALM の実装には、特に信頼性とトレーサビリティに関して課題が残っています。
具体的には、無関係な文書の取得により、役に立たない応答が生成されたり、LLM のパフォーマンスが低下したりする可能性があります。また、生成された出力に適切な引用がないため、モデルの信頼性を検証する作業が複雑になります。
この目的を達成するために、我々は、RALM の信頼性と追跡可能性を向上させることを目的とした新しい自己推論フレームワークを提案します。その中心的なアイデアは、LLM 自体によって生成された推論軌跡を活用することです。
このフレームワークには、関連性を意識したプロセス、証拠を意識した選択プロセス、および軌跡分析プロセスの 3 つのプロセスを使用して自己理由軌跡を構築することが含まれます。
私たちは、4 つの公開データセット (2 つの短形式 QA データセット、1 つの長形式 QA データセット、および 1 つの事実検証データセット) にわたってフレームワークを評価し、既存の最先端モデルを上回るパフォーマンスを発揮できる私たちの手法の優位性を実証しました。
わずか 2,000 のトレーニング サンプルを使用しながら、GPT-4 と同等のパフォーマンスを達成します。

要約(オリジナル)

The Retrieval-Augmented Language Model (RALM) has shown remarkable performance on knowledge-intensive tasks by incorporating external knowledge during inference, which mitigates the factual hallucinations inherited in large language models (LLMs). Despite these advancements, challenges persist in the implementation of RALMs, particularly concerning their reliability and traceability. To be specific, the irrelevant document retrieval may result in unhelpful response generation or even deteriorate the performance of LLMs, while the lack of proper citations in generated outputs complicates efforts to verify the trustworthiness of the models. To this end, we propose a novel self-reasoning framework aimed at improving the reliability and traceability of RALMs, whose core idea is to leverage reasoning trajectories generated by the LLM itself. The framework involves constructing self-reason trajectories with three processes: a relevance-aware process, an evidence-aware selective process, and a trajectory analysis process. We have evaluated our framework across four public datasets (two short-form QA datasets, one long-form QA dataset, and one fact verification dataset) to demonstrate the superiority of our method, which can outperform existing state-of-art models and can achieve comparable performance with GPT-4, while only using 2,000 training samples.

arxiv情報

著者 Yuan Xia,Jingbo Zhou,Zhenhui Shi,Jun Chen,Haifeng Huang
発行日 2024-07-29 09:05:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク