要約
今日、商用LLMとオープンソースのアカデミックLLMの両方がNLPの主流モデルとなっている。しかし、LLMの一貫性に関する研究はまだ不足している。つまり、LLMの研究と展開のさまざまな段階を通じて、その内部パラメータと能力は変わらないはずである。この問題は産業界と学術界の両方に存在する。この問題の解決には時間と労力がかかることが多く、また、二次展開の追加コストも発生するため、経済的・時間的な損失が生じます。このギャップを埋めるために、我々はLLM一貫性タスクデータセットを構築し、いくつかのベースラインを設計する。さらに、主要な実験には多様なスケールのモデルを選択する。具体的には、LightGBM実験では、モデル学習に必要な特徴量として伝統的なNLGメトリクス(すなわち、ROUGE、BLEU、METEOR)を使用した。最終的な結果は、手動評価やGPT3.5、そして本実験の他のモデルを上回り、最高のパフォーマンスを達成しました。最終的に、私たちは、ビジネスモデルの展開を効果的に支援することができる評価ツールを構築するためのベースモデルとして、最高のパフォーマンスを発揮するLightGBMモデルを使用しています。我々のコードとツールのデモは、https://github.com/heavenhellchen/Consistency.git で利用可能です。
要約(オリジナル)
Nowadays both commercial and open-source academic LLM have become the mainstream models of NLP. However, there is still a lack of research on LLM consistency, meaning that throughout the various stages of LLM research and deployment, its internal parameters and capabilities should remain unchanged. This issue exists in both the industrial and academic sectors. The solution to this problem is often time-consuming and labor-intensive, and there is also an additional cost of secondary deployment, resulting in economic and time losses. To fill this gap, we build an LLM consistency task dataset and design several baselines. Additionally, we choose models of diverse scales for the main experiments. Specifically, in the LightGBM experiment, we used traditional NLG metrics (i.e., ROUGE, BLEU, METEOR) as the features needed for model training. The final result exceeds the manual evaluation and GPT3.5 as well as other models in the main experiment, achieving the best performance. In the end, we use the best performing LightGBM model as the base model to build the evaluation tool, which can effectively assist in the deployment of business models. Our code and tool demo are available at https://github.com/heavenhellchen/Consistency.git
arxiv情報
著者 | Fufangchen Zhao,Guoqiang Jin,Jiaheng Huang,Rui Zhao,Fei Tan |
発行日 | 2024-03-02 14:08:06+00:00 |
arxivサイト | arxiv_id(pdf) |