Language Models Benefit from Preparation with Elicited Knowledge

要約

ゼロショット思考連鎖 (CoT) アプローチは、複数の推論ステップを必要とするタスクの言語モデル (LM) による質問応答 (QA) でよく使用され、通常は「ステップごとに考えてみましょう」というプロンプトによって強化されます。
ただし、一部の QA タスクは、推論ステップを連鎖させることよりも、関連する知識にアクセスすることに大きく依存します。
PREP と呼ばれる単純な一般的なプロンプト手法を導入します。これには、LM の 2 つのインスタンスの使用が含まれます。1 つ目 (LM1) は関連情報を生成し、2 つ目 (LM2) はこの情報に基づいて質問に答えます。
PREP は一般的でユーザーの専門知識に依存しないように設計されており、専門的なプロンプト エンジニアリングを必要とせずにさまざまな QA タスクに適用できます。
プロンプト手法の有効性を評価するために、人工物の部品と材料の組成に関する広範な概略データセットから派生した 100 個の二者択一の質問のデータセットを作成しました。
これらの質問は、2 つのアーティファクトのうちどちらが別のアーティファクトとマテリアルを共有する可能性が低いかを尋ねます。
このような質問は、さまざまな成果物の部品構造における共有材料に関する LM の知識を精査します。
私たちのデータセットと 3 つの公開された常識推論データセットでメソッドをテストします。
私たちの方法の平均精度は、テストされたすべてのデータセットにわたって、他のすべてのテストされた方法の平均精度よりも一貫して高くなっています。

要約(オリジナル)

The zero-shot chain of thought (CoT) approach is often used in question answering (QA) by language models (LMs) for tasks that require multiple reasoning steps, typically enhanced by the prompt ‘Let’s think step by step.’ However, some QA tasks hinge more on accessing relevant knowledge than on chaining reasoning steps. We introduce a simple general prompting technique, called PREP, that involves using two instances of LMs: the first (LM1) generates relevant information, and the second (LM2) answers the question based on this information. PREP is designed to be general and independent of the user’s domain knowledge, making it applicable across various QA tasks without the need for specialized prompt engineering. To evaluate the effectiveness of our prompting method, we create a dataset of 100 binary-choice questions, derived from an extensive schematic dataset on artifact parts and material composition. These questions ask which of two artifacts is less likely to share materials with another artifact. Such questions probe the LM’s knowledge of shared materials in the part structure of different artifacts. We test our method on our dataset and three published commonsense reasoning datasets. The average accuracy of our method is consistently higher than that of all the other tested methods across all the tested datasets.

arxiv情報

著者 Jiacan Yu,Hannah An,Lenhart K. Schubert
発行日 2024-09-06 03:35:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク