Answering Unseen Questions With Smaller Language\\Models Using Rationale Generation and Dense Retrieval

要約

十分な説明コンテキストが提供されている場合、小規模な言語モデルは、トレーニングでは質問が表示されない、難しい短答式の質問に答えるタスクで強力な推論能力を発揮することが示されています。
この設定をさらに改善するために 2 つの方法を評価します。
どちらの方法も、より大きな言語モデルによって生成された理論的根拠と、マルチホップの高密度検索システムから作成されたより長いコンテキストを組み合わせることに重点を置いています。
最初の方法 ($\textit{RR}$) では、関連性と真実性に関して、生成された根拠と取得されたコンテキストの両方にスコアを付けるために根拠ランキング モデルをトレーニングすることが含まれます。
次に、スコアを使用して、いくつかの組み合わせ戦略を使用して、両方の知識ソースから組み合わせたコンテキストを導き出します。
2 番目の方法 ($\textit{RATD}$) では、検索拡張トレーニング データセットを使用して小規模な推論モデルをトレーニングし、部分的にしか証拠がなく、多くの無関係な文が含まれている可能性がある長いテキスト シーケンスからの関連情報を活用することに熟達します。

一般に、どちらの方法も効果的ですが、$\textit{RATD}$ 方法の方が適用が簡単で、私たちが焦点を当てている目に見えない設定で最も強力な結果が得られることがわかります。
わずか 4 億 4,000 万のパラメーターを使用する当社の単一の最良の推論モデルは、未確認の評価データセット (StrategyQA 58.9 $\rightarrow$ 61.7 acc.、CommonsenseQA 63.6 $\rightarrow$ 72.7 acc.、ARC-DA 31.6 $\rightarrow$) の強力な比較可能な以前のベースラインを大幅に改善しています。
52.1 F1、IIRC 25.5 $\rightarrow$ 27.3 F1) と、コンテキストの組み合わせ戦略を選択する際に各タイプの質問に関する事前知識を利用するバージョンはさらに優れています。
また、私たちが提案したモデルは、一般に、少数ショットの思考連鎖設定と少数ショットの回答のみの設定の両方で、はるかに大きなモデル (BLOOM 175B および StableVicuna 13B) に対する直接プロンプトよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

When provided with sufficient explanatory context, smaller Language Models have been shown to exhibit strong reasoning ability on challenging short-answer question-answering tasks where the questions are unseen in training. We evaluate two methods for further improvement in this setting. Both methods focus on combining rationales generated by a larger Language Model with longer contexts created from a multi-hop dense retrieval system. The first method ($\textit{RR}$) involves training a Rationale Ranking model to score both generated rationales and retrieved contexts with respect to relevance and truthfulness. We then use the scores to derive combined contexts from both knowledge sources using a number of combinatory strategies. For the second method ($\textit{RATD}$) we train a smaller Reasoning model using retrieval-augmented training datasets such that it becomes proficient at utilising relevant information from longer text sequences that may be only partially evidential and frequently contain many irrelevant sentences. Generally we find that both methods are effective but that the $\textit{RATD}$ method is more straightforward to apply and produces the strongest results in the unseen setting on which we focus. Our single best Reasoning model using only 440 million parameters materially improves upon strong comparable prior baselines for unseen evaluation datasets (StrategyQA 58.9 $\rightarrow$ 61.7 acc., CommonsenseQA 63.6 $\rightarrow$ 72.7 acc., ARC-DA 31.6 $\rightarrow$ 52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1) and a version utilising our prior knowledge of each type of question in selecting a context combination strategy does even better. Our proposed models also generally outperform direct prompts against much larger models (BLOOM 175B and StableVicuna 13B) in both few-shot chain-of-thought and few-shot answer-only settings.

arxiv情報

著者 Tim Hartill,Diana Benavides-Prado,Michael Witbrock,Patricia J. Riddle
発行日 2023-08-09 05:06:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク