Can discrete information extraction prompts generalize across language models?

要約

言語モデルから情報を効果的に抽出する自動的に誘導されるプロンプトをすぐに使用して、同じ情報について他の言語モデルを調査できるかどうかを調査します。
AutoPrompt アルゴリズムで誘導された個別のプロンプトが、スロット充填タスクで手動および半手動のプロンプトよりも優れていることを確認した後、モデルで学習され、別のモデルでテストされた AutoPrompt プロンプトのパフォーマンスの低下を示します。
トレーニング時に言語モデルを混合することでプロンプトを誘発する方法を紹介します。これにより、モデル全体で一般化されるプロンプトが得られます。
誘導されたプロンプトの広範な分析を行い、より一般的なプロンプトには既存の英単語の割合が高く、順序依存性が低く、コンポーネント トークン全体で情報の分布がより均一であることがわかりました。
私たちの仕事は、一度誘発され、さまざまなモデルで使用できる個別のプロンプトを生成できるという予備的な証拠を提供し、そのようなプロンプトを特徴付けるプロパティに関する洞察を提供します。

要約(オリジナル)

We study whether automatically-induced prompts that effectively extract information from a language model can also be used, out-of-the-box, to probe other language models for the same information. After confirming that discrete prompts induced with the AutoPrompt algorithm outperform manual and semi-manual prompts on the slot-filling task, we demonstrate a drop in performance for AutoPrompt prompts learned on a model and tested on another. We introduce a way to induce prompts by mixing language models at training time that results in prompts that generalize well across models. We conduct an extensive analysis of the induced prompts, finding that the more general prompts include a larger proportion of existing English words and have a less order-dependent and more uniform distribution of information across their component tokens. Our work provides preliminary evidence that it’s possible to generate discrete prompts that can be induced once and used with a number of different models, and gives insights on the properties characterizing such prompts.

arxiv情報

著者 Nathanaël Carraz Rakotonirina,Roberto Dessì,Fabio Petroni,Sebastian Riedel,Marco Baroni
発行日 2023-02-20 09:56:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク