Dissecting Paraphrases: The Impact of Prompt Syntax and supplementary Information on Knowledge Retrieval from Pretrained Language Models

要約

事前トレーニング済み言語モデル (PLM) には、さまざまな種類の知識が含まれていることが知られています。
リレーショナル知識を推論する 1 つの方法は、クローズ スタイルのプロンプトを使用することです。このプロンプトでは、欠落しているサブジェクトまたはオブジェクトを予測することがモデルに課されます。
構文やセマンティクスの小さな違いがナレッジ検索のパフォーマンスに大きな影響を与える可能性があるため、通常、これらのプロンプトの設計は面倒な作業です。
同時に、プロンプト構文または情報の影響を評価することは、相互依存性があるため困難です。
当社は、最小限の言い換えでの比較を容易にする 3,400 万の異なるプロンプトで構成される専用プローブである CONPARE-LAMA を設計しました。
これらの言い換えは、任意の関係にわたって構文とセマンティクスの制御されたバリエーションを可能にする統一されたメタ テンプレートに従っています。
CONPARE-LAMA を使用すると、言い換えの構文形式または意味情報が PLM の知識検索パフォーマンスに及ぼす独立した影響について洞察を得ることができます。
当社のプローブを使用した広範な知識検索実験により、節構文に続くプロンプトには、同格構文と比較して、いくつかの望ましい特性があることが明らかになりました。i) 補足情報の組み合わせで PLM をクエリする場合に、プロンプトはより有用です。ii) 知識は、情報のさまざまな組み合わせにわたってより一貫して想起されます。
iii) 既知の事実を検索する際の応答の不確実性を軽減します。
さらに、ドメイン情報は構文形式全体でより確実に役立つにもかかわらず、範囲情報はドメイン情報よりも知識検索のパフォーマンスを向上させることができます。

要約(オリジナル)

Pre-trained Language Models (PLMs) are known to contain various kinds of knowledge. One method to infer relational knowledge is through the use of cloze-style prompts, where a model is tasked to predict missing subjects or objects. Typically, designing these prompts is a tedious task because small differences in syntax or semantics can have a substantial impact on knowledge retrieval performance. Simultaneously, evaluating the impact of either prompt syntax or information is challenging due to their interdependence. We designed CONPARE-LAMA – a dedicated probe, consisting of 34 million distinct prompts that facilitate comparison across minimal paraphrases. These paraphrases follow a unified meta-template enabling the controlled variation of syntax and semantics across arbitrary relations. CONPARE-LAMA enables insights into the independent impact of either syntactical form or semantic information of paraphrases on the knowledge retrieval performance of PLMs. Extensive knowledge retrieval experiments using our probe reveal that prompts following clausal syntax have several desirable properties in comparison to appositive syntax: i) they are more useful when querying PLMs with a combination of supplementary information, ii) knowledge is more consistently recalled across different combinations of supplementary information, and iii) they decrease response uncertainty when retrieving known facts. In addition, range information can boost knowledge retrieval performance more than domain information, even though domain information is more reliably helpful across syntactic forms.

arxiv情報

著者 Stephan Linzbach,Dimitar Dimitrov,Laura Kallmeyer,Kilian Evang,Hajira Jabeen,Stefan Dietze
発行日 2024-04-02 14:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク