要約
大規模言語モデル (LLM) は、自然言語クエリを構築し、プロンプトを大規模言語モデルに直接入力することで、アクセスしやすいインテリジェントなチャットボットとして使用できます。
ただし、プロンプトの構造が異なると、回答が不確実になることが多く、LLM (ChatGPT など) の特定の知識を活用することが困難になります。
これを軽減するために、解釈可能な構造を使用して LLM の即時学習原理を説明します。これは、言語モデルの有効性がタスクに関連するトークンの位置の変化によって決定されることを証明します。
したがって、我々は、タスク関連オブジェクト、概要、およびタスク記述情報に基づいて構成される多次元タスクプロンプト学習方法であるMTPromptを提案します。
適切なプロンプトを自動的に構築して検索することにより、私たちが提案する MTPrompt は、少数のショットのサンプル設定と 5 つの異なるデータセットで最良の結果を達成します。
さらに、さまざまな実験設定やアブレーション実験におけるこの方法の有効性と安定性を実証します。
大規模な言語モデルとの対話では、より多くのタスク関連情報をプロンプトに埋め込むことで、大規模な言語モデルに埋め込まれた知識を刺激しやすくなります。
要約(オリジナル)
Large language models (LLMs) can be used as accessible and intelligent chatbots by constructing natural language queries and directly inputting the prompt into the large language model. However, different prompt’ constructions often lead to uncertainty in the answers and thus make it hard to utilize the specific knowledge of LLMs (like ChatGPT). To alleviate this, we use an interpretable structure to explain the prompt learning principle in LLMs, which certificates that the effectiveness of language models is determined by position changes of the task’s related tokens. Therefore, we propose MTPrompt, a multi-dimensional task prompt learning method consisting based on task-related object, summary, and task description information. By automatically building and searching for appropriate prompts, our proposed MTPrompt achieves the best results on few-shot samples setting and five different datasets. In addition, we demonstrate the effectiveness and stability of our method in different experimental settings and ablation experiments. In interaction with large language models, embedding more task-related information into prompts will make it easier to stimulate knowledge embedded in large language models.
arxiv情報
著者 | Jinta Weng,Jiarui Zhang,Yue Hu,Daidong Fa,Xiaofeng Xuand,Heyan Huang |
発行日 | 2023-12-13 10:00:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google