要約
マルチステップのクレーム検証用に設計された現在の自然言語システムは、通常 2 つのフェーズで動作します。ヒューリスティックを使用して関連する前提ステートメントのセットを取得し (計画)、次に大規模な言語モデルを使用してそれらのステートメントから新しい結論を生成します (演繹)。
計画ステップでは、多くの場合、高価な Transformer 操作が必要となり、任意の数の前提ステートメントに拡張できません。
この論文では、演繹的推論と互換性のある埋め込み空間を介して効率的な計画ヒューリスティックが可能かどうかを調査します。
具体的には、埋め込み空間が演繹的加法性と呼ばれる特性を示すかどうかを評価します。つまり、前提ステートメントの埋め込みの合計は、それらの前提に基づく結論の埋め込みに近いはずです。
GPT3 の微調整されたエンベディングと BM25 のスパース エンベディングに加えて、既製の高密度エンベディングの複数のソースを調査します。
私たちは、演繹的加法性の性質が成り立つかどうかを評価する本質的な埋め込みモデルと、自然言語証明生成の計画を支援するために埋め込みモデルを使用する外部的な両方の方法で埋め込みモデルを研究しています。
最後に、さまざまな推論タイプのパフォーマンスをさらに調査するために、データセットであるシングルステップ推論コントラスト (SSRC) を作成します。
私たちの調査結果は、標準的な埋め込み手法は前提の合計に近い結論を埋め込むことが多いものの、効果的なヒューリスティックには至っておらず、特定のカテゴリーの推論をモデル化する能力が欠けていることを示唆しています。
要約(オリジナル)
Current natural language systems designed for multi-step claim validation typically operate in two phases: retrieve a set of relevant premise statements using heuristics (planning), then generate novel conclusions from those statements using a large language model (deduction). The planning step often requires expensive Transformer operations and does not scale to arbitrary numbers of premise statements. In this paper, we investigate whether an efficient planning heuristic is possible via embedding spaces compatible with deductive reasoning. Specifically, we evaluate whether embedding spaces exhibit a property we call deductive additivity: the sum of premise statement embeddings should be close to embeddings of conclusions based on those premises. We explore multiple sources of off-the-shelf dense embeddings in addition to fine-tuned embeddings from GPT3 and sparse embeddings from BM25. We study embedding models both intrinsically, evaluating whether the property of deductive additivity holds, and extrinsically, using them to assist planning in natural language proof generation. Lastly, we create a dataset, Single-Step Reasoning Contrast (SSRC), to further probe performance on various reasoning types. Our findings suggest that while standard embedding methods frequently embed conclusions near the sums of their premises, they fall short of being effective heuristics and lack the ability to model certain categories of reasoning.
arxiv情報
| 著者 | Zayne Sprague,Kaj Bostrom,Swarat Chaudhuri,Greg Durrett |
| 発行日 | 2023-07-06 02:16:33+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google