要約
トランスフォーマーからの双方向エンコーダ表現 (BERT) に基づくモデルは、固有表現認識 (NER) や品詞 (POS) タグ付けなどの多くの自然言語処理 (NLP) タスクで最先端 (SOTA) の結果を生成します。米国最高裁判所からの文書など、BERT ベースのモデルを初回パスまたはすぐに使用するのが難しいと考えられる長い文書を分類するときに、興味深い現象が発生します。
この論文では、米国最高裁判決または最高裁判所データベース (SCDB) に対していくつかの BERT ベースの分類手法を実験し、以前の SOTA の結果と比較します。
次に、特に長いドキュメントの SOTA モデルと結果を比較します。
2 つの分類タスク、(1) 15 カテゴリを含む大まかな分類タスク、および (2) 279 のカテゴリを含む詳細な分類タスクの結果を比較します。
最良の結果では、15 の広範なカテゴリで 80\%、詳細な 279 カテゴリで 60\% の精度が得られ、以前に報告された SOTA 結果からそれぞれ 8\% と 28\% の改善を示しています。
要約(オリジナル)
Models based on bidirectional encoder representations from transformers (BERT) produce state of the art (SOTA) results on many natural language processing (NLP) tasks such as named entity recognition (NER), part-of-speech (POS) tagging etc. An interesting phenomenon occurs when classifying long documents such as those from the US supreme court where BERT-based models can be considered difficult to use on a first-pass or out-of-the-box basis. In this paper, we experiment with several BERT-based classification techniques for US supreme court decisions or supreme court database (SCDB) and compare them with the previous SOTA results. We then compare our results specifically with SOTA models for long documents. We compare our results for two classification tasks: (1) a broad classification task with 15 categories and (2) a fine-grained classification task with 279 categories. Our best result produces an accuracy of 80\% on the 15 broad categories and 60\% on the fine-grained 279 categories which marks an improvement of 8\% and 28\% respectively from previously reported SOTA results.
arxiv情報
著者 | Shubham Vatsal,Adam Meyers,John E. Ortega |
発行日 | 2023-07-24 15:33:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google