Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging

要約

大規模な言語モデルの急速な進歩により、主に人間の意図に合わせることに重点を置いた、現実世界の無数のタスクにわたって多数のアプリケーションが誕生しました。
しかし、人間の意図には複雑さが伴うため、労力と時間がかかる人間による評価に依存する必要があります。
この制約を軽減するために、GPT-4 を利用する一般的な傾向に合わせて、オープンソースの大規模言語モデルを評価者として採用するパラダイムを掘り下げます。
特に、段階的な評価フレームワークである \textbf{Fennec} を提示します。\textbf{F} の細かい \textbf{E}valuatio\textbf{N} とCorrectio\textbf{N} \textbf{ が可能です。
bran\textbf{C}ing とブリッジングを通じて拡張されました。
具体的には、分岐操作により評価タスクがさまざまな次元と粒度に分割され、それによって評価に関連する課題が軽減されます。
同時に、ブリッジング操作によりさまざまなトレーニング データセットが統合され、さまざまな評価タスクが強化されます。
実験的トライアルでは、私たちの 7B モデルは、広く採用されているさまざまなベンチマークにわたって、\textit{Agreement} と \textit{Consistency} の両方の点でオープンソースの大規模評価モデルよりも常に優れたパフォーマンスを示し、GPT-4 の機能にほぼ近づいています。
評価モデルによって引き起こされるきめ細かい補正機能を使用して、複数のモデル応答を改良しました。結果は、改良によって応答の品質が向上し、MT ベンチで 1 ~ 2 ポイントの改善につながることが示されました。
コードは Github\footnote{\url{https://github.com/dropreg/Fennec}} で入手できます。

要約(オリジナル)

The rapid advancement of large language models has given rise to a plethora of applications across a myriad of real-world tasks, mainly centered on aligning with human intent. However, the complexities inherent in human intent necessitate a dependence on labor-intensive and time-consuming human evaluation. To alleviate this constraint, we delve into the paradigm of employing open-source large language models as evaluators, aligning with the prevailing trend of utilizing GPT-4. Particularly, we present a step-by-step evaluation framework: \textbf{Fennec}, capable of \textbf{F}ine-grained \textbf{E}valuatio\textbf{N} and correctio\textbf{N} \textbf{E}xtended through bran\textbf{C}hing and bridging. Specifically, the branching operation dissects the evaluation task into various dimensions and granularities, thereby alleviating the challenges associated with evaluation. Concurrently, the bridging operation amalgamates diverse training datasets, augmenting the variety of evaluation tasks. In experimental trials, our 7B model consistently outperforms open-source larger-scale evaluation models across various widely adopted benchmarks in terms of both \textit{Agreement} and \textit{Consistency}, closely approaching the capabilities of GPT-4. We employ the fine-grained correction capabilities induced by the evaluation model to refine multiple model responses, and the results show that the refinement elevates the quality of responses, leading to an improvement of 1-2 points on the MT-Bench. Our code is available at Github\footnote{\url{https://github.com/dropreg/Fennec}}.

arxiv情報

著者 Xiaobo Liang,Haoke Zhang,Helan hu,Juntao Li,Jun Xu,Min Zhang
発行日 2024-05-20 16:47:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク