SCALE: Scaling up the Complexity for Advanced Language Model Evaluation

要約

大規模言語モデル (LLM) の最近の進歩により、多くの NLP ベンチマーク (専門的なドメイン固有のベンチマークも) が飽和状態になり、LLM の機能を適切に評価するには、より挑戦的な新しいベンチマークの必要性が強調されています。
このペーパーでは、長い文書の処理 (最大 50,000 トークン)、ドメイン固有の知識の利用 (法律文書に具体化)、多言語理解 (5 つの言語をカバー)、
マルチタスク(法的文書から文書への情報検索、法廷見解の生成、主要な判決の要約、引用の抽出、および 8 つの困難なテキスト分類タスクで構成されます)。
私たちのベンチマークは、スイスの法制度からの多様な法的 NLP データセットで構成されており、基礎となる非英語の本質的に多言語である連邦法制度の包括的な研究を可能にします。
最近の進歩にもかかわらず、集中的なレビュー/分析タスクのために長い文書を効率的に処理することは、言語モデルにとって依然として未解決の課題です。
また、多言語ベンチマークのように、開発に高度な専門知識を必要とする包括的なドメイン固有のベンチマークはまれです。
ほとんどの公開モデルが主に英語コーパスでトレーニングされている一方で、他の言語、特に実践的なドメイン固有の NLP タスクについては十分に研究されていないことを考えると、この希少性は私たちの貢献の価値を強調しています。
私たちのベンチマークにより、最先端の LLM のテストと発展が可能になります。
研究の一環として、基準点として強力なベースラインを確立するために、ベンチマークでいくつかの事前トレーニング済みの多言語モデルを評価します。
データセットのサイズが大きい (例数万から数十万) にもかかわらず、既存の公開モデルは、ドメイン内事前トレーニング後であっても、ほとんどのタスクで困難を伴います。
すべてのリソース (ベンチマーク スイート、事前トレーニング済みモデル、コード) は、完全に許容されるオープンな CC BY-SA ライセンスに基づいて公開されます。

要約(オリジナル)

Recent strides in Large Language Models (LLMs) have saturated many NLP benchmarks (even professional domain-specific ones), emphasizing the need for novel, more challenging novel ones to properly assess LLM capabilities. In this paper, we introduce a novel NLP benchmark that poses challenges to current LLMs across four key dimensions: processing long documents (up to 50K tokens), utilizing domain specific knowledge (embodied in legal texts), multilingual understanding (covering five languages), and multitasking (comprising legal document to document Information Retrieval, Court View Generation, Leading Decision Summarization, Citation Extraction, and eight challenging Text Classification tasks). Our benchmark comprises diverse legal NLP datasets from the Swiss legal system, allowing for a comprehensive study of the underlying Non-English, inherently multilingual, federal legal system. Despite recent advances, efficiently processing long documents for intense review/analysis tasks remains an open challenge for language models. Also, comprehensive, domain-specific benchmarks requiring high expertise to develop are rare, as are multilingual benchmarks. This scarcity underscores our contribution’s value, considering most public models are trained predominantly on English corpora, while other languages remain understudied, particularly for practical domain-specific NLP tasks. Our benchmark allows for testing and advancing the state-of-the-art LLMs. As part of our study, we evaluate several pre-trained multilingual language models on our benchmark to establish strong baselines as a point of reference. Despite the large size of our datasets (tens to hundreds of thousands of examples), existing publicly available models struggle with most tasks, even after in-domain pretraining. We publish all resources (benchmark suite, pre-trained models, code) under a fully permissive open CC BY-SA license.

arxiv情報

著者 Vishvaksenan Rasiah,Ronja Stern,Veton Matoshi,Matthias Stürmer,Ilias Chalkidis,Daniel E. Ho,Joel Niklaus
発行日 2023-06-15 16:19:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2 パーマリンク