Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs

要約

広報文書の分析は、透明性、説明責任、情報に基づいた意思決定を促進するため、市民にとって極めて重要です。市民は政府の政策を理解し、公の場に参加し、代表者に責任を負わせることができる。特定の規制によって経営が左右される企業にとって、これは極めて重要であり、時には生死に関わる問題でもあります。大規模言語モデル(LLM)は、広報文書で使用されている複雑な言語を効果的に処理し理解することで、広報文書の分析を大幅に強化する可能性があります。本研究では、LLMの公共文書分類における性能について分析する。マルチラベルの自然なタスクとして、これらの文書の分類は重要な課題を提起している。本研究では、正規表現ツールを用いて、33K以上のサンプルと22.5M以上のトークンを持つ公務文書のデータベースを収集する。実験では、4種類のスペイン語LLMの性能を評価し、異なる構成でデータ内の最大30種類のトピックを分類する。その結果、LLMは、公務のようなドメインに特化した文書を処理するのに非常に有効であることが示された。

要約(オリジナル)

The analysis of public affairs documents is crucial for citizens as it promotes transparency, accountability, and informed decision-making. It allows citizens to understand government policies, participate in public discourse, and hold representatives accountable. This is crucial, and sometimes a matter of life or death, for companies whose operation depend on certain regulations. Large Language Models (LLMs) have the potential to greatly enhance the analysis of public affairs documents by effectively processing and understanding the complex language used in such documents. In this work, we analyze the performance of LLMs in classifying public affairs documents. As a natural multi-label task, the classification of these documents presents important challenges. In this work, we use a regex-powered tool to collect a database of public affairs documents with more than 33K samples and 22.5M tokens. Our experiments assess the performance of 4 different Spanish LLMs to classify up to 30 different topics in the data in different configurations. The results shows that LLMs can be of great use to process domain-specific documents, such as those in the domain of public affairs.

arxiv情報

著者 Alejandro Peña,Aythami Morales,Julian Fierrez,Ignacio Serna,Javier Ortega-Garcia,Iñigo Puente,Jorge Cordova,Gonzalo Cordova
発行日 2023-06-05 13:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク