FedEval-LLM: Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom

要約

Federated Learning (FL) は、大規模言語モデル (LLM) の共同トレーニングのための有望なソリューションとして浮上しています。
ただし、LLM を FL に統合すると、特に LLM の評価に関して新たな課題が生じます。
ラベル付きテストセットと類似性に基づくメトリクスに依存する従来の評価方法は、許容可能な回答のサブセットのみをカバーするため、生成タスクに対する LLM のパフォーマンスを正確に反映できません。
一方、高度な LLM を活用した自動評価方法には可能性が秘められていますが、データを外部サーバーに送信する必要があるため、データ漏洩の重大なリスクと、ドメイン知識の不足による下流タスクのパフォーマンスが最適ではないという重大なリスクに直面しています。
これらの問題に対処するために、FedEval-LLM という大規模言語モデルのフェデレーション評価フレームワークを提案します。これは、ラベル付きテスト セットや外部ツールに依存せずに、下流タスクで LLM の信頼できるパフォーマンス測定を提供し、強力なプライバシー保護機能を保証します。
FedEval-LLM は、審査員としての参加者からのパーソナライズされた LLM のコンソーシアムを活用して、ドメイン知識と集合的な評価機能を提供することで、それぞれの下流タスクに合わせて、単一の審査員に関連する不確実性と偏見を軽減します。
実験結果は、下流タスクにおけるパーソナライズされた評価モデルの評価能力が大幅に向上したことを示しています。
FL に適用すると、これらの評価モデルは、人間の好みや、細心の注意を払って厳選されたテスト セットの RougeL スコアと強い一致を示します。
FedEval-LLM は、従来の指標の制限と外部サービスへの依存を効果的に克服し、共同トレーニング シナリオ内で LLM を評価するための有望なフレームワークとなっています。

要約(オリジナル)

Federated Learning (FL) has emerged as a promising solution for collaborative training of large language models (LLMs). However, the integration of LLMs into FL introduces new challenges, particularly concerning the evaluation of LLMs. Traditional evaluation methods that rely on labeled test sets and similarity-based metrics cover only a subset of the acceptable answers, thereby failing to accurately reflect the performance of LLMs on generative tasks. Meanwhile, although automatic evaluation methods that leverage advanced LLMs present potential, they face critical risks of data leakage due to the need to transmit data to external servers and suboptimal performance on downstream tasks due to the lack of domain knowledge. To address these issues, we propose a Federated Evaluation framework of Large Language Models, named FedEval-LLM, that provides reliable performance measurements of LLMs on downstream tasks without the reliance on labeled test sets and external tools, thus ensuring strong privacy-preserving capability. FedEval-LLM leverages a consortium of personalized LLMs from participants as referees to provide domain knowledge and collective evaluation capability, thus aligning to the respective downstream tasks and mitigating uncertainties and biases associated with a single referee. Experimental results demonstrate a significant improvement in the evaluation capability of personalized evaluation models on downstream tasks. When applied to FL, these evaluation models exhibit strong agreement with human preference and RougeL-score on meticulously curated test sets. FedEval-LLM effectively overcomes the limitations of traditional metrics and the reliance on external services, making it a promising framework for the evaluation of LLMs within collaborative training scenarios.

arxiv情報

著者 Yuanqin He,Yan Kang,Lixin Fan,Qiang Yang
発行日 2024-04-18 15:46:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク