A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court

要約

イタリアの法的調査におけるトピックモデリングは、公開データセットの欠如によって妨げられ、最高裁判所の判決における法的テーマの分析が制限されます。
これに対処するために、トピックモデリング用に最適化された匿名化されたデータセットを生成するドキュメント処理パイプラインを開発しました。
パイプラインは、ドキュメントレイアウト分析(YoLOV8X)、光学文字認識、およびテキストの匿名化を統合します。
DLAモジュールは、0.964の50@50@50と0.800の50-95のマップを達成しました。
OCR検出器は0.9022の50-95@50-95に到達し、テキスト認識者(TROCR)は0.0047の文字エラー率と0.0248の単語エラー率を取得しました。
OCRのみの方法と比較して、データセットは、0.6198のダイバーシティスコアと0.6638のコヒーレンススコアでトピックモデリングを改善しました。
トピックを抽出するためにBertopicを適用し、ラベルと要約を生成するために大規模な言語モデルを使用しました。
出力は、ドメインの専門家解釈に対して評価されました。
Claude Sonnet 3.7は、標識用に0.8119、要約のために0.9130のBertscore F1を達成しました。

要約(オリジナル)

Topic modeling in Italian legal research is hindered by the lack of public datasets, limiting the analysis of legal themes in Supreme Court judgments. To address this, we developed a document processing pipeline that produces an anonymized dataset optimized for topic modeling. The pipeline integrates document layout analysis (YOLOv8x), optical character recognition, and text anonymization. The DLA module achieved a mAP@50 of 0.964 and a mAP@50-95 of 0.800. The OCR detector reached a mAP@50-95 of 0.9022, and the text recognizer (TrOCR) obtained a character error rate of 0.0047 and a word error rate of 0.0248. Compared to OCR-only methods, our dataset improved topic modeling with a diversity score of 0.6198 and a coherence score of 0.6638. We applied BERTopic to extract topics and used large language models to generate labels and summaries. Outputs were evaluated against domain expert interpretations. Claude Sonnet 3.7 achieved a BERTScore F1 of 0.8119 for labeling and 0.9130 for summarization.

arxiv情報

著者 Matteo Marulli,Glauco Panattoni,Marco Bertini
発行日 2025-05-13 11:06:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク