Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs


大規模言語モデル (LLM) は、公務文書で使用されている複雑な言語を効果的に処理して理解することにより、公文書の分析を大幅に強化する可能性があります。
この研究では、公務文書の分類における LLM のパフォーマンスを分析します。
この作業では、正規表現を利用したツールを使用して、33,000 個を超えるサンプルと 2,250 万個のトークンを含む広報文書のデータベースを収集します。
私たちの実験では、異なる構成でデータ内の最大 30 個の異なるトピックを分類するための 4 つの異なるスペイン語 LLM のパフォーマンスを評価しました。
この結果は、LLM が広報分野などのドメイン固有の文書を処理するのに非常に役立つことを示しています。


The analysis of public affairs documents is crucial for citizens as it promotes transparency, accountability, and informed decision-making. It allows citizens to understand government policies, participate in public discourse, and hold representatives accountable. This is crucial, and sometimes a matter of life or death, for companies whose operation depend on certain regulations. Large Language Models (LLMs) have the potential to greatly enhance the analysis of public affairs documents by effectively processing and understanding the complex language used in such documents. In this work, we analyze the performance of LLMs in classifying public affairs documents. As a natural multi-label task, the classification of these documents presents important challenges. In this work, we use a regex-powered tool to collect a database of public affairs documents with more than 33K samples and 22.5M tokens. Our experiments assess the performance of 4 different Spanish LLMs to classify up to 30 different topics in the data in different configurations. The results shows that LLMs can be of great use to process domain-specific documents, such as those in the domain of public affairs.


著者 Alejandro Peña,Aythami Morales,Julian Fierrez,Ignacio Serna,Javier Ortega-Garcia,Iñigo Puente,Jorge Cordova,Gonzalo Cordova
発行日 2023-08-08 09:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク