要約
ChatGPT などの大規模言語モデル (LLM) の出現により、一般的な自然言語前処理 (NLP) タスクに革命が起こりました。
しかし、金融分野における彼らの専門知識は包括的な評価に欠けています。
金融 NLP タスクを解決する LLM の能力を評価するために、言語モデルのパフォーマンスを評価するために設計された 9 つのデータセットで構成される金融言語モデル評価のフレームワークである FinLMEval を紹介します。
この研究では、エンコーダのみの言語モデルとデコーダのみの言語モデルのパフォーマンスを比較します。
私たちの調査結果では、一部のデコーダー専用 LLM は、ゼロショット プロンプトを介してほとんどの財務タスクにわたって顕著なパフォーマンスを示しますが、一般的に、特に独自のデータセットを扱う場合には、微調整されたエキスパート モデルよりも遅れをとっていることが明らかになりました。
この研究が、金融領域でより高度な LLM を構築するための継続的な取り組みの基礎評価となることを願っています。
要約(オリジナル)
The emergence of Large Language Models (LLMs), such as ChatGPT, has revolutionized general natural language preprocessing (NLP) tasks. However, their expertise in the financial domain lacks a comprehensive evaluation. To assess the ability of LLMs to solve financial NLP tasks, we present FinLMEval, a framework for Financial Language Model Evaluation, comprising nine datasets designed to evaluate the performance of language models. This study compares the performance of encoder-only language models and the decoder-only language models. Our findings reveal that while some decoder-only LLMs demonstrate notable performance across most financial tasks via zero-shot prompting, they generally lag behind the fine-tuned expert models, especially when dealing with proprietary datasets. We hope this study provides foundation evaluations for continuing efforts to build more advanced LLMs in the financial domain.
arxiv情報
著者 | Yue Guo,Zian Xu,Yi Yang |
発行日 | 2023-10-19 11:43:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google