要約
提供されたプロンプトに基づいて $“$コンテキストで学習$’$ できる大規模言語モデル (LLM) の機能により、その使用が爆発的に増加し、ChatGPT、Claude、Bard などの AI アシスタントの普及につながりました。
。
これらの AI アシスタントは、主に人間のフィードバックを使用する調整技術により、小規模なプロンプト変更に対して堅牢であることが知られています。
対照的に、バックボーンとして使用される基礎となる事前トレーニング済み LLM は、この点で脆弱であることが知られています。
高品質のバックボーン モデルの構築は依然として主要な課題であり、その品質を評価するための一般的なアプローチは、少数ショット評価を実行することです。
このような評価は、軽微な修正や、文脈に沿った特定の例の選択に非常に敏感であることで知られています。
これまでの研究では、プロンプトのさまざまな要素を変更することがモデルのパフォーマンスにどのように影響するかを調査しました。
ただし、これらの初期の研究は、限られた数の特定のプロンプト属性に焦点を当てる傾向があり、多くの場合、矛盾した結果が得られました。
さらに、これまでの研究では、パラメーターが 150 億未満のモデルに焦点を当てていたか、GPT-3 や PaLM などのブラックボックス モデルのみを調査していたため、複製が困難でした。
本研究では、プロンプト全体を、タスクの説明、デモンストレーション入力、ラベル、およびデモンストレーションごとに提供されるインライン指示の 4 つのコンポーネントに分解します。
これらの要素の構造的および意味的破損がモデルのパフォーマンスに及ぼす影響を調査します。
私たちは、分類と生成タスクをカバーする 10 個のデータセットを使用して、サイズが 1.5B から 70B までの範囲のモデルを研究します。
プロンプト内でテキストを繰り返すとモデルのパフォーマンスが向上し、大きなモデル ($\geq$30B) ほどプロンプトのセマンティクスの影響を受けやすいことがわかりました。
最後に、タスク命令とインライン命令をデモに追加すると、命令が意味的に壊れている場合でもモデルのパフォーマンスが向上することがわかります。
要約(オリジナル)
The ability of large language models (LLMs) to $“$learn in context$’$ based on the provided prompt has led to an explosive growth in their use, culminating in the proliferation of AI assistants such as ChatGPT, Claude, and Bard. These AI assistants are known to be robust to minor prompt modifications, mostly due to alignment techniques that use human feedback. In contrast, the underlying pre-trained LLMs they use as a backbone are known to be brittle in this respect. Building high-quality backbone models remains a core challenge, and a common approach to assessing their quality is to conduct few-shot evaluation. Such evaluation is notorious for being highly sensitive to minor prompt modifications, as well as the choice of specific in-context examples. Prior work has examined how modifying different elements of the prompt can affect model performance. However, these earlier studies tended to concentrate on a limited number of specific prompt attributes and often produced contradictory results. Additionally, previous research either focused on models with fewer than 15 billion parameters or exclusively examined black-box models like GPT-3 or PaLM, making replication challenging. In the present study, we decompose the entire prompt into four components: task description, demonstration inputs, labels, and inline instructions provided for each demonstration. We investigate the effects of structural and semantic corruptions of these elements on model performance. We study models ranging from 1.5B to 70B in size, using ten datasets covering classification and generation tasks. We find that repeating text within the prompt boosts model performance, and bigger models ($\geq$30B) are more sensitive to the semantics of the prompt. Finally, we observe that adding task and inline instructions to the demonstrations enhances model performance even when the instructions are semantically corrupted.
arxiv情報
著者 | Namrata Shivagunde,Vladislav Lialin,Sherin Muckatira,Anna Rumshisky |
発行日 | 2024-05-29 16:12:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google