要約
従来、文書の分類や情報抽出などのタスクでは、識別モデルが主に選択されてきました。
これらのモデルは、限られた数の事前定義されたクラスに分類される予測を行うことで、真か偽のバイナリ評価を容易にし、F1 スコアなどのメトリックの直接計算を可能にします。
しかし、生成大規模言語モデル (GLLM) の最近の進歩により、ゼロショット機能が強化され、下流のデータセットや計算コストのかかる微調整が不要になったため、この分野の変化が促されています。
ただし、判別モデルに使用される二値の真または偽の評価は GLLM によって行われる予測には適用できないため、GLLM の評価には課題が伴います。
このペーパーでは、情報抽出タスクや分類タスクを含むさまざまなタスクを評価するための、ANLS* と呼ばれる生成モデルの新しい指標を紹介します。
ANLS* メトリクスは、ドロップイン置換として既存の ANLS メトリクスを拡張し、以前に報告された ANLS スコアと引き続き互換性があります。
ANLS* メトリクスを使用した 7 つの異なるデータセットと 3 つの異なる GLLM の評価も提供され、提案されたメトリクスの重要性が実証されています。
また、SFT と呼ばれるドキュメントのプロンプトを生成する新しいアプローチを、LATIN などの他のプロンプト手法と比較してベンチマークします。
21 件中 15 件のケースで、SFT は他の技術を上回っており、場合によっては 15 ドルものパーセンテージ ポイントも最先端の技術を向上させています。
ソースは https://github.com/deepopinion/anls_star_metric から入手できます。
要約(オリジナル)
Traditionally, discriminative models have been the predominant choice for tasks like document classification and information extraction. These models make predictions that fall into a limited number of predefined classes, facilitating a binary true or false evaluation and enabling the direct calculation of metrics such as the F1 score. However, recent advancements in generative large language models (GLLMs) have prompted a shift in the field due to their enhanced zero-shot capabilities, which eliminate the need for a downstream dataset and computationally expensive fine-tuning. However, evaluating GLLMs presents a challenge as the binary true or false evaluation used for discriminative models is not applicable to the predictions made by GLLMs. This paper introduces a new metric for generative models called ANLS* for evaluating a wide variety of tasks, including information extraction and classification tasks. The ANLS* metric extends existing ANLS metrics as a drop-in-replacement and is still compatible with previously reported ANLS scores. An evaluation of 7 different datasets and 3 different GLLMs using the ANLS* metric is also provided, demonstrating the importance of the proposed metric. We also benchmark a novel approach to generate prompts for documents, called SFT, against other prompting techniques such as LATIN. In 15 out of 21 cases, SFT outperforms other techniques and improves the state-of-the-art, sometimes by as much as $15$ percentage points. Sources are available at https://github.com/deepopinion/anls_star_metric
arxiv情報
著者 | David Peer,Philemon Schöpf,Volckmar Nebendahl,Alexander Rietzler,Sebastian Stabinger |
発行日 | 2024-02-06 09:50:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google