要約
タイトル: 認知されにくいデータを含めた汎化性能の測定のためのLikelihood Splits
要約: 自然言語処理システムはコモンな言語だけでなく珍しい言葉にも対応するためには、長尾分布(頻度の低いデータ)に対して汎用的に対応する必要がある。そこで、既存のデータセットを再分割することで、長尾分布に対して一般化するチャレンジングベンチマークを作成する方法を提案する。これは、学習済み言語モデルによって確率が低く評価された例をテストセットに、より確率が高い例をトレーニングセットに割り当てる「Likelihood Splits」を用いて行う。この簡単なアプローチは、広範囲のタスクに対して有意義なトレーニングとテストセットを構築するためにカスタマイズすることができる。Likelihood Splitsはランダムに分割するよりも多くの難問を提示し、例えば、Spiderの意味解析では最新のモデルの相対誤差率が59%増加し、SNLIの自然言語理解では93%、BoolQのはい/いいえの回答は33%増加し、対応するランダム分割と比較した。さらに、Likelihood Splitsは敵対的なフィルタリングよりも公平なベンチマークを作成する。Likelihood Splitsを作成するために使用されたLMがタスクモデルとしても使用された場合、LMの評価を不当に罰することはありません。
要点:
– 自然言語処理システムは長尾分布(頻度の低いデータ)に対しても対応する必要がある
– 既存のデータセットを再分割することで、長尾分布に対して一般化するチャレンジングなベンチマークを作成する「Likelihood Splits」を提案する
– Likelihood Splitsは、確率が低い例をテストセットに、より確率が高い例をトレーニングセットに割り当てることで行われる
– Likelihood Splitsはランダムに分割するよりも多くの難問を提示する
– Likelihood Splitsを作成するために使用されたLMがタスクモデルとしても使用された場合、LMの評価を不当に罰することはありません。
要約(オリジナル)
In order to reliably process natural language, NLP systems must generalize to the long tail of rare utterances. We propose a method to create challenging benchmarks that require generalizing to the tail of the distribution by re-splitting existing datasets. We create ‘Likelihood Splits’ where examples that are assigned lower likelihood by a pre-trained language model (LM) are placed in the test set, and more likely examples are in the training set. This simple approach can be customized to construct meaningful train-test splits for a wide range of tasks. Likelihood Splits surface more challenges than random splits: relative error rates of state-of-the-art models increase by 59% for semantic parsing on Spider, 93% for natural language inference on SNLI, and 33% for yes/no question answering on BoolQ, on our splits compared with the corresponding random splits. Moreover, Likelihood Splits create fairer benchmarks than adversarial filtering; when the LM used to create the splits is also employed as the task model, our splits do not unfairly penalize the LM.
arxiv情報
著者 | Ameya Godbole,Robin Jia |
発行日 | 2023-05-02 10:05:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI