要約
自然言語推論 (NLI) は、依然として LLM にとって重要なベンチマーク タスクです。
NLI データセットは、他のセマンティック タスクへの転移学習の出発点であり、NLI モデルは、モデルによって生成されたテキストの忠実性を識別するための標準ツールです。
現在、大規模な NLI データセットがいくつかあり、モデルはこれらのコレクションを山登りすることで大幅に改善されました。
しかし、分布外/ドメインデータに対する現実的なパフォーマンスはあまりよく理解されていません。
私たちは、新しい未知のテキスト ドメインにわたる下流アプリケーションでのゼロショット使用のために NLI モデルを適応させる、高品質の合成データセットの機会を探ります。
私たちは、これまで既存のトレーニング セットではカバーされていなかった、さまざまなドメインと長さの NLI データを生成するための新しいアプローチを実証します。
結果として得られる例には意味のある前提があり、仮説はいくつかの前提トークンの単純な編集ではなく創造的な方法で形成され、ラベルの精度は高くなります。
このデータ ($685$K の合成例) でトレーニングされたモデルが、完全に新しい下流テスト設定に対して最適な一般化を備えていることを示します。
TRUE ベンチマークでは、当社のデータでトレーニングされた T5 小型モデルは、最良の代替データセットでのトレーニングと比較して、平均で約 $7\%$ 向上しました。
この改善は小型モデルほど顕著ですが、T5 XXL モデルでも依然として意味があります。
また、ドメイン内のトレーニング データをドメイン一般の合成データで強化した場合のテスト セットの利益も実証します。
要約(オリジナル)
Natural Language Inference (NLI) remains an important benchmark task for LLMs. NLI datasets are a springboard for transfer learning to other semantic tasks, and NLI models are standard tools for identifying the faithfulness of model-generated text. There are several large scale NLI datasets today, and models have improved greatly by hill-climbing on these collections. Yet their realistic performance on out-of-distribution/domain data is less well-understood. We explore the opportunity for synthetic high-quality datasets to adapt NLI models for zero-shot use in downstream applications across new and unseen text domains. We demonstrate a new approach for generating NLI data in diverse domains and lengths, so far not covered by existing training sets. The resulting examples have meaningful premises, the hypotheses are formed in creative ways rather than simple edits to a few premise tokens, and the labels have high accuracy. We show that models trained on this data ($685$K synthetic examples) have the best generalization to completely new downstream test settings. On the TRUE benchmark, a T5-small model trained with our data improves around $7\%$ on average compared to training on the best alternative dataset. The improvements are more pronounced for smaller models, while still meaningful on a T5 XXL model. We also demonstrate gains on test sets when in-domain training data is augmented with our domain-general synthetic data.
arxiv情報
著者 | Mohammad Javad Hosseini,Andrey Petrov,Alex Fabrikant,Annie Louis |
発行日 | 2024-06-28 10:36:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google