Classifying complex documents: comparing bespoke solutions to large language models

要約

ここでは、一連の複雑な法的文書に対する最適な自動分類アプローチを模索します。
私たちの分類タスクは簡単ではありません。私たちの目的は、12 の州と 267 の郡からの約 30,000 件の公共裁判所記録を、9 つのサブカテゴリーを使用して 2 つの異なるレベルで分類することです。
具体的には、微調整された大規模言語モデル (LLM) が特注のカスタム トレーニング モデルの精度を達成できるかどうか、また必要な微調整の量はどれくらいかを調査しました。

要約(オリジナル)

Here we search for the best automated classification approach for a set of complex legal documents. Our classification task is not trivial: our aim is to classify ca 30,000 public courthouse records from 12 states and 267 counties at two different levels using nine sub-categories. Specifically, we investigated whether a fine-tuned large language model (LLM) can achieve the accuracy of a bespoke custom-trained model, and what is the amount of fine-tuning necessary.

arxiv情報

著者 Glen Hopkins,Kristjan Kalm
発行日 2023-12-12 11:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク