DiversiGATE: A Comprehensive Framework for Reliable Large Language Models

要約

本稿では、LLM検証のための多様な方法論を統合する統合フレームワークであるDiversiGATEを紹介します。
提案されたフレームワークは、Diversification と Aggregation という 2 つの主要コンポーネントで構成されており、Self-Consistency、Math Prompter、WebGPT などの既存の検証アプローチの全体的な視点を提供します。
さらに、DiversiGATE フレームワークに準拠した新しい「SelfLearner」モデルを提案します。このモデルは、独自の出力から学習し、時間の経過とともにパフォーマンスを改良し、精度の向上につながります。
SelfLearner の有効性を評価するために、合成データや GSM8K などの一般的な算術推論ベンチマークでのテストを含む、一連の厳密な実験を実施しました。
私たちの結果は、私たちのアプローチが従来の LLM よりも優れたパフォーマンスを示し、GSM8K ベンチマークで 54.8% -> 61.8% という大幅な改善を達成したことを示しています。

要約(オリジナル)

In this paper, we introduce DiversiGATE, a unified framework that consolidates diverse methodologies for LLM verification. The proposed framework comprises two main components: Diversification and Aggregation which provide a holistic perspective on existing verification approaches, such as Self-Consistency, Math Prompter and WebGPT. Furthermore, we propose a novel `SelfLearner’ model that conforms to the DiversiGATE framework which can learn from its own outputs and refine its performance over time, leading to improved accuracy. To evaluate the effectiveness of SelfLearner, we conducted a rigorous series of experiments, including tests on synthetic data as well as on popular arithmetic reasoning benchmarks such as GSM8K. Our results demonstrate that our approach outperforms traditional LLMs, achieving a considerable 54.8% -> 61.8% improvement on the GSM8K benchmark.

arxiv情報

著者 Shima Imani,Ali Beyram,Harsh Shrivastava
発行日 2023-06-22 22:29:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク