The ICL Consistency Test

要約

前世代のタスク調整モデルと同様に、インコンテキスト学習 (ICL) などのプロンプトベースのメソッドを介してタスクに適応された大規模言語モデル (LLM) は、一部の設定ではうまく機能しますが、他の設定ではうまく機能しません。
プロンプトベースの学習における一貫性の欠如は、堅牢な一般化の欠如を示唆しています。
ここでは、GenBench 協調ベンチマーク タスク (CBT) への貢献である ICL 一貫性テストを紹介します。このテストは、同じデータを使用しながら、多くの異なる設定にわたってモデルがどの程度一貫して予測を行うかを評価します。
このテストは、確立されたさまざまな自然言語推論タスクに基づいています。
96 の異なる「セットアップ」を構成する前処理されたデータと、これらのセットアップ全体でのモデルの一貫性を推定するメトリクスを提供します。
このメトリクスは、設定のどのプロパティが予測を不安定にするかを理解するために詳細なレベルで提供され、モデル全体の一貫性を比較するために集計レベルで提供されます。
私たちは 8 つの最先端モデルの実証分析を実施し、その一貫性指標により、テストされたすべての LLM がいかに堅牢な一般化に欠けているかが明らかになりました。

要約(オリジナル)

Just like the previous generation of task-tuned models, large language models (LLMs) that are adapted to tasks via prompt-based methods like in-context-learning (ICL) perform well in some setups but not in others. This lack of consistency in prompt-based learning hints at a lack of robust generalisation. We here introduce the ICL consistency test — a contribution to the GenBench collaborative benchmark task (CBT) — which evaluates how consistent a model makes predictions across many different setups while using the same data. The test is based on different established natural language inference tasks. We provide preprocessed data constituting 96 different ‘setups’ and a metric that estimates model consistency across these setups. The metric is provided on a fine-grained level to understand what properties of a setup render predictions unstable and on an aggregated level to compare overall model consistency. We conduct an empirical analysis of eight state-of-the-art models, and our consistency metric reveals how all tested LLMs lack robust generalisation.

arxiv情報

著者 Lucas Weber,Elia Bruni,Dieuwke Hupkes
発行日 2023-12-08 10:22:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク