Finding Stakeholder-Material Information from 10-K Reports using Fine-Tuned BERT and LSTM Models

要約

すべての上場企業は連邦証券法により、年次 10-K 報告書で事業および財務活動を開示することが義務付けられています。
各レポートは通常、数百ページにわたるため、人間の読者が重要な情報を効率的に特定して抽出するのは困難です。
この問題を解決するために、LSTM レイヤーを使用して BERT モデルと RNN モデルを微調整し、ステークホルダーの重要な情報を特定しました。ステークホルダーの重要な情報は、顧客、従業員、投資家、コミュニティなどのステークホルダーに対する企業の影響に関する情報を伝えるステートメントとして定義されます。
自然環境。
既存の手法では、キーワード検索を使用してそのような情報を特定しており、これが私のベースライン モデルです。
2022 年に発行された 62 件の 10-K レポートからのビジネス専門家がラベル付けした約 6,000 文のトレーニング データを使用した結果、最良のモデルはテスト データで精度 0.904 と F1 スコア 0.899 を達成し、それぞれベースライン モデルの 0.781 と 0.749 を大幅に上回りました。
さらに、同じ研究がより詳細な分類法に基づいて再現され、それに基づいて 4 つの異なるグループの利害関係者 (つまり、顧客、投資家、従業員、地域社会と自然環境) が個別にテストされました。
同様に、微調整された BERT モデルは LSTM およびベースラインを上回りました。
業界への応用への影響と将来の拡張のアイデアについて説明します。

要約(オリジナル)

All public companies are required by federal securities law to disclose their business and financial activities in their annual 10-K reports. Each report typically spans hundreds of pages, making it difficult for human readers to identify and extract the material information efficiently. To solve the problem, I have fine-tuned BERT models and RNN models with LSTM layers to identify stakeholder-material information, defined as statements that carry information about a company’s influence on its stakeholders, including customers, employees, investors, and the community and natural environment. The existing practice uses keyword search to identify such information, which is my baseline model. Using business expert-labeled training data of nearly 6,000 sentences from 62 10-K reports published in 2022, the best model has achieved an accuracy of 0.904 and an F1 score of 0.899 in test data, significantly above the baseline model’s 0.781 and 0.749 respectively. Furthermore, the same work was replicated on more granular taxonomies, based on which four distinct groups of stakeholders (i.e., customers, investors, employees, and the community and natural environment) are tested separately. Similarly, fined-tuned BERT models outperformed LSTM and the baseline. The implications for industry application and ideas for future extensions are discussed.

arxiv情報

著者 Victor Zitian Chen
発行日 2023-08-15 01:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL パーマリンク