要約
機械読解 (MRC) の分野では、既存のシステムは SQuAD などの多くのタスクで人間の平均パフォーマンスを上回っています。
しかし、論理的推論に関しては、まだ長い道のりがあります。
そのための方法がいくつか提案されていますが、それらは非常に複雑な方法で設計されているか、外部構造に依存しすぎています。
この論文では、6 種類の論理指標と
論理的に豊富なデータセット LGP (LoGic Pre-training)。
IDOL は、論理推論 MRC の 2 つの最も代表的なベンチマークである ReClor と LogiQA で最先端のパフォーマンスを実現し、さまざまな事前トレーニング済みモデルや、RACE や SQuAD 2.0 などの他のタイプの MRC ベンチマークに一般化できることが証明されています。
GLUE でのタスクのテストを通じて、競争力のある一般的な言語理解能力を維持しながら。
さらに、大規模な言語モデルの時代の始まりに、ChatGPT などのいくつかの言語モデルを比較したところ、IDOL が依然としてその優位性を示していることがわかりました。
要約(オリジナル)
In the field of machine reading comprehension (MRC), existing systems have surpassed the average performance of human beings in many tasks like SQuAD. However, there is still a long way to go when it comes to logical reasoning. Although some methods for it have been put forward, they either are designed in a quite complicated way or rely too much on external structures. In this paper, we proposed IDOL (InDicator-Oriented Logic Pre-training), an easy-to-understand but highly effective further pre-training task which logically strengthens the pre-trained models with the help of 6 types of logical indicators and a logically rich dataset LGP (LoGic Pre-training). IDOL achieves state-of-the-art performance on ReClor and LogiQA, the two most representative benchmarks in logical reasoning MRC, and is proven to be capable of generalizing to different pre-trained models and other types of MRC benchmarks like RACE and SQuAD 2.0 while keeping competitive general language understanding ability through testing on tasks in GLUE. Besides, at the beginning of the era of large language models, we take several of them like ChatGPT into comparison and find that IDOL still shows its advantage.
arxiv情報
著者 | Zihang Xu,Ziqing Yang,Yiming Cui,Shijin Wang |
発行日 | 2023-06-27 07:57:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google