RRescue: Ranking LLM Responses to Enhance Reasoning Over Context

要約

大規模な言語モデルでは、特定のコンテキストを効果的に使用することが最も重要です。
コンテキスト ウィンドウには、タスクの仕様、取得したドキュメント、以前の会話、さらにはモデルの内省を含めることができ、エピソード記憶と同様に機能します。
コンテキスト ウィンドウを拡張する取り組みが行われていますが、調査によると、LLM は応答生成にコンテキストを最適に使用していないことが示されています。
この論文では、ランキングメトリクスを使用して LLM を最適化する新しいアプローチを紹介します。このアプローチは、文脈に基づいた候補応答のコレクションをランク付けするように LLM に教えます。
従来の完全な順序付けではなく、部分的な順序付けを推奨します。
これは、システム応答の完全な順序について合意を得ることが困難な場合があるためです。
私たちの部分順序付けはより堅牢で、ノイズの影響を受けにくく、人間によるラベラー、ヒューリスティック関数、またはモデルの蒸留を通じて取得できます。
新しい複数文書の質問応答データセットを含む最新のベンチマークを使用して、システムの文脈理解の向上をテストします。
当社では、候補者の回答を収集する方法、最適な順序を決定する方法、教師付き微調整とランキング指標のバランスをとる方法など、重要な要素を理解するためにアブレーション研究を実施します。
RRescue と名付けられた私たちのアプローチは、応答ランキングを通じて LLM の文脈理解を強化するための有望な手段を示唆しています。

要約(オリジナル)

Effectively using a given context is paramount for large language models. A context window can include task specifications, retrieved documents, previous conversations, and even model self-reflections, functioning similarly to episodic memory. While efforts are being made to expand the context window, studies indicate that LLMs do not use their context optimally for response generation. In this paper, we present a novel approach to optimize LLMs using ranking metrics, which teaches LLMs to rank a collection of contextually-grounded candidate responses. Rather than a traditional full ordering, we advocate for a partial ordering. This is because achieving consensus on the perfect order for system responses can be challenging. Our partial ordering is more robust, less sensitive to noise, and can be acquired through human labelers, heuristic functions, or model distillation. We test our system’s improved contextual understanding using the latest benchmarks, including a new multi-document question answering dataset. We conduct ablation studies to understand crucial factors, such as how to gather candidate responses, determine their most suitable order, and balance supervised fine-tuning with ranking metrics. Our approach, named RRescue, suggests a promising avenue for enhancing LLMs’ contextual understanding via response ranking.

arxiv情報

著者 Yikun Wang,Rui Zheng,Haoming Li,Qi Zhang,Tao Gui,Fei Liu
発行日 2023-11-15 17:27:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク