Harnessing GPT-3.5-turbo for Rhetorical Role Prediction in Legal Cases

要約

私たちは、訴訟の修辞的役割予測タスクにおいて、事前に訓練された大規模な生成変換器 (GPT-3.5-turbo) をクエリするための 1 段階の引き出し手法の包括的な研究を提案します。
このタスクは、テキストのコンテキストに対処する必要があるとして知られています。
私たちの研究では、ゼロフューショット、アノテーションの曖昧さの定義と明確化を伴うタスクの仕様、テキストのコンテキストと一般的なプロンプトと特定の質問による推論などの戦略を検討しています。
例の数、ラベルの定義、(ラベル付きの) テキストコンテキストの表示、およびこのコンテキストに関する特定の質問がモデルのパフォーマンスにプラスの影響を与えることを示します。
非等価なテスト セット構成を考慮すると、直接コンテキストからいくつかのラベル付きサンプルをプロンプト表示すると、BERT エンコーダー (加重 F1 スコア = 72) に基づく教師あり微調整マルチクラス分類器よりもモデルのパフォーマンスが向上することが観察されました。
%)。
しかし、LegalEval 2023 タスクでは最高のシステムのパフォーマンス (86%) に到達するにはまだギャップがあり、その一方で、専用のリソース、アーキテクチャ、トレーニングが必要です。

要約(オリジナル)

We propose a comprehensive study of one-stage elicitation techniques for querying a large pre-trained generative transformer (GPT-3.5-turbo) in the rhetorical role prediction task of legal cases. This task is known as requiring textual context to be addressed. Our study explores strategies such as zero-few shots, task specification with definitions and clarification of annotation ambiguities, textual context and reasoning with general prompts and specific questions. We show that the number of examples, the definition of labels, the presentation of the (labelled) textual context and specific questions about this context have a positive influence on the performance of the model. Given non-equivalent test set configurations, we observed that prompting with a few labelled examples from direct context can lead the model to a better performance than a supervised fined-tuned multi-class classifier based on the BERT encoder (weighted F1 score of = 72%). But there is still a gap to reach the performance of the best systems = 86%) in the LegalEval 2023 task which, on the other hand, require dedicated resources, architectures and training.

arxiv情報

著者 Anas Belfathi,Nicolas Hernandez,Laura Monceaux
発行日 2023-10-26 14:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク