要約
大規模な自己回帰生成モデルは、いくつかの自然言語処理タスクにわたって最高のパフォーマンスを達成するための基礎として浮上しています。
しかし、優れた結果を達成したいという衝動により、徹底的な実験を行わずに、慎重に設計されたタスク固有のアプローチが時期尚早に置き換えられてしまうことがありました。
相互参照解決タスクも例外ではありません。
最近の最先端のソリューションはすべて、エンコーダベースの識別システムを上回る大規模な生成自己回帰モデルを採用しています。
この取り組みでは、慎重に設計されたシンプルなパイプラインである Maverick を導入することで、この最近の傾向に挑戦します。これにより、学術予算の制約内で最先端の共参照解像度システムを実行できるようになり、最大 13 のモデルを上回るパフォーマンスを実現します。
数十億個のパラメータをわずか 5 億個のパラメータで実現します。
Maverick は、CoNLL-2012 ベンチマークで最先端のパフォーマンスを達成し、最大 0.006 倍のメモリ リソースでトレーニングし、以前の最先端のシステムと比較して 170 倍高速な推論を取得します。
私たちは、さまざまな実験を行って Maverick フレームワークの堅牢性を広範囲に検証し、データ不足、長い文書、ドメイン外の設定における以前のシステムと比較した改善を報告しています。
研究目的でコードとモデルを https://github.com/SapienzaNLP/maverick-coref で公開しています。
要約(オリジナル)
Large autoregressive generative models have emerged as the cornerstone for achieving the highest performance across several Natural Language Processing tasks. However, the urge to attain superior results has, at times, led to the premature replacement of carefully designed task-specific approaches without exhaustive experimentation. The Coreference Resolution task is no exception; all recent state-of-the-art solutions adopt large generative autoregressive models that outperform encoder-based discriminative systems. In this work,we challenge this recent trend by introducing Maverick, a carefully designed – yet simple – pipeline, which enables running a state-of-the-art Coreference Resolution system within the constraints of an academic budget, outperforming models with up to 13 billion parameters with as few as 500 million parameters. Maverick achieves state-of-the-art performance on the CoNLL-2012 benchmark, training with up to 0.006x the memory resources and obtaining a 170x faster inference compared to previous state-of-the-art systems. We extensively validate the robustness of the Maverick framework with an array of diverse experiments, reporting improvements over prior systems in data-scarce, long-document, and out-of-domain settings. We release our code and models for research purposes at https://github.com/SapienzaNLP/maverick-coref.
arxiv情報
著者 | Giuliano Martinelli,Edoardo Barba,Roberto Navigli |
発行日 | 2024-07-31 09:58:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google