要約
ゼロショット思考連鎖 (CoT) アプローチは、複数の推論ステップを必要とするタスクの言語モデル (LM) による質問応答 (QA) でよく使用されます。
ただし、一部の QA タスクは、推論ステップを連鎖させることよりも、関連する知識にアクセスすることに大きく依存します。
PREP と呼ばれる単純なプロンプト手法を導入します。これには、LM の 2 つのインスタンスの使用が含まれます。1 つ目 (LM1) は関連情報を生成し、2 つ目 (LM2) はユーザーから情報を受信して質問に答えます。
この設計は、LM の命令追従機能をより有効に活用することを目的としています。
PREP は、ドメイン固有のプロンプト エンジニアリングを行わずに、さまざまな QA タスクに適用できます。
PREP は、アーティファクトの部品と材料の組成を指定する広範な概略データセットから派生した 100 の QA 質問のデータセットに基づいて開発されています。
これらの質問は、2 つのアーティファクトのうちどちらが別のアーティファクトとマテリアルを共有する可能性が低いかを尋ねます。
このような質問は、さまざまな成果物の部品構造における共有材料に関する LM の知識を精査します。
私たちは、部品と材料のデータセットと 3 つの公開された常識的推論データセットでメソッドをテストします。
私たちの方法の平均精度は、テストされたすべてのデータセットにわたって、他のすべてのテストされた方法の平均精度よりも一貫して高くなっています。
要約(オリジナル)
The zero-shot chain of thought (CoT) approach is often used in question answering (QA) by language models (LMs) for tasks that require multiple reasoning steps. However, some QA tasks hinge more on accessing relevant knowledge than on chaining reasoning steps. We introduce a simple prompting technique, called PREP, that involves using two instances of LMs: the first (LM1) generates relevant information, and the second (LM2) receives the information from the user and answers the question. This design is intended to make better use of the LM’s instruction-following capability. PREP is applicable across various QA tasks without domain-specific prompt engineering. PREP is developed on a dataset of 100 QA questions, derived from an extensive schematic dataset specifying artifact parts and material composition. These questions ask which of two artifacts is less likely to share materials with another artifact. Such questions probe the LM’s knowledge of shared materials in the part structure of different artifacts. We test our method on our parts-and-materials dataset and three published commonsense reasoning datasets. The average accuracy of our method is consistently higher than that of all the other tested methods across all the tested datasets.
arxiv情報
著者 | Jiacan Yu,Hannah An,Lenhart K. Schubert |
発行日 | 2024-12-02 03:10:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google