要約
この研究では、業界における大規模言語モデル (LLM) または LLM ベースのシステムまたはサービスの開発における標準操作手順を推進するための取り組みについて報告します。
大規模言語モデル開発ライフサイクル (LDLC) の概念を紹介し、配信品質を確保する上での一貫性テストの重要性を強調します。
しかし、整合性テストという原理的な解決策は、通常、業界の専門家によって無視されており、学術界では緊急ではありません。また、現在の実際的な解決策は厳密さが不十分で、労働集約的です。
そこで、我々は、SimCT と呼ばれる、シンプルかつ効果的な一貫性テスト プロトコルを提案します。
SimCT は主に、モデル アーティファクトにアクセスすることなく、「ベア メタル」LLM または関連サービスのさまざまな開発段階にわたる一貫性をプロアクティブにチェックし、さまざまなプロジェクトに関与する複数のチーム間でのやり取りの調整コミュニケーションを減らして配信を迅速化することを目的としています。
開発段階。
具体的には、SimCT には応答に関するテストとモデルに関するテストが含まれます。
2 つのコンポーネントに対してそれぞれ LightGBM と Student の t 検定を使用してプロトコルを実装し、SimCT と関連コンポーネントの有効性を実証するために広範な実験を実行します。
要約(オリジナル)
In this work, we report our efforts to advance the standard operation procedure of developing Large Language Models (LLMs) or LLMs-based systems or services in industry. We introduce the concept of Large Language Model Development Lifecycle (LDLC) and then highlight the importance of consistency test in ensuring the delivery quality. The principled solution of consistency test, however, is usually overlooked by industrial practitioners and not urgent in academia, and current practical solutions are insufficiently rigours and labor-intensive. We thus propose a simple yet effective consistency test protocol, named SimCT. SimCT is mainly to proactively check the consistency across different development stages of ‘bare metal’ LLMs or associated services without accessing the model artifacts, in an attempt to expedite the delivery by reducing the back-and-forth alignment communications among multiple teams involved in different development stages. Specifically, SimCT encompasses response-wise and model-wise tests. We implement the protocol with LightGBM and Student’s t-test for two components respectively, and perform extensive experiments to substantiate the effectiveness of SimCT and the involved components.
arxiv情報
著者 | Fufangchen Zhao,Guoqiang Jin,Rui Zhao,Jiangheng Huang,Fei Tan |
発行日 | 2024-07-24 10:49:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google