Retrieval-Augmented Thought Process as Sequential Decision Making

要約

大規模言語モデル (LLM) は、人々を支援し、「知性の輝き」を示す強力な能力を実証しています。
しかし、プライバシーへの懸念、幻覚を引き起こす傾向、長いコンテキストの処理の難しさなど、いくつかの未解決の課題がその広範な応用を妨げています。
この研究では、検索拡張思考プロセス (RATP) を導入することでこれらの課題に対処します。
外部知識へのアクセスが与えられると、RATP は LLM の思考生成を複数段階の意思決定プロセスとして定式化します。
このような思考プロセスを最適化するために、RATP はモンテカルロ木検索を活用し、コスト効率の高い推論を可能にする Q 値推定量を学習します。
倫理的およびセキュリティ上の懸念により LLM トレーニング方法が制限されるプライベート データを使用した質問応答のタスクに対処する際、RATP は既存のコンテキスト内検索拡張言語モデルと比較して 50% の改善を達成します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated their strong ability to assist people and show ‘sparks of intelligence’. However, several open challenges hinder their wider application: such as concerns over privacy, tendencies to produce hallucinations, and difficulties in handling long contexts. In this work, we address those challenges by introducing the Retrieval-Augmented Thought Process (RATP). Given access to external knowledge, RATP formulates the thought generation of LLMs as a multiple-step decision process. To optimize such a thought process, RATP leverages Monte-Carlo Tree Search, and learns a Q-value estimator that permits cost-efficient inference. In addressing the task of question-answering with private data, where ethical and security concerns limit LLM training methods, RATP achieves a 50% improvement over existing in-context retrieval-augmented language models.

arxiv情報

著者 Thomas Pouplin,Hao Sun,Samuel Holt,Mihaela van der Schaar
発行日 2024-02-12 17:17:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, H.3.3 パーマリンク