要約
このペーパーでは、合成 Preference Optimization (PO) データセット生成のためのマルチエージェント ワークフローを示し、評価します。
PO データセットの生成には、(1) 応答評価、および (2) 応答生成の 2 つのモジュールが必要です。
応答評価モジュールでは、大規模言語モデル (LLM) からの応答が評価され、ランク付けされます。このタスクは通常、ヒューマン アノテーターによって実行され、LLM を使用して自動化されます。
応答評価モジュールは 2 段階のプロセスで評価されます。
ステップ 1 では、3 つの異なるプロンプト戦略を使用して、評価者として LLM を評価します。
ステップ 2 では、勝利プロンプト戦略を適用して、裁判官としての LLM、陪審としての LLM、および LLM ディベートのパフォーマンスを比較します。
各ステップでは、ヒューマン アノテーターと LLM の間でコーエンのカッパを使用した評価者間の合意を使用します。
応答生成モジュールについては、特定された LLM エバリュエーター構成を使用して、LLM フィードバック ループのさまざまな構成を比較します。
勝率 (生成フレームワークが LLM 評価者によって最適なものとして選択される割合) を使用して、生成に最適なマルチエージェント構成を決定します。
両方のモジュールに最適な構成を特定した後、GPT、Gemma、Llama ファミリのモデルを使用して、上記のパイプラインを使用して PO データセットを生成します。
2 種類の PO データセットを生成します。1 つは個々の LLM の生成機能を向上させるため、もう 1 つはマルチエージェント ワークフローを向上させるためです。
私たちの評価では、回答候補に GPT ファミリーからの回答が含まれていない場合、GPT-4o-as-a-Judge がデータセット全体でより一貫していることが示されています。
さらに、生成者として Llama を、レビュー者として Gemma を使用した LLM フィードバック ループは、単一エージェントの Llama と Gemma に対してそれぞれ 71.8% と 73.8% という注目に値する勝率を達成していることがわかりました。
要約(オリジナル)
This paper presents and evaluates multi-agent workflows for synthetic Preference Optimization (PO) dataset generation. PO dataset generation requires two modules: (1) response evaluation, and (2) response generation. In the response evaluation module, the responses from Large Language Models (LLMs) are evaluated and ranked – a task typically carried out by human annotators that we automate using LLMs. We assess the response evaluation module in a 2 step process. In step 1, we assess LLMs as evaluators using three distinct prompting strategies. In step 2, we apply the winning prompting strategy to compare the performance of LLM-as-a-Judge, LLMs-as-a-Jury, and LLM Debate. In each step, we use inter-rater agreement using Cohen’s Kappa between human annotators and LLMs. For the response generation module, we compare different configurations for the LLM Feedback Loop using the identified LLM evaluator configuration. We use the win rate (the fraction of times a generation framework is selected as the best by an LLM evaluator) to determine the best multi-agent configuration for generation. After identifying the best configurations for both modules, we use models from the GPT, Gemma, and Llama families to generate our PO datasets using the above pipeline. We generate two types of PO datasets, one to improve the generation capabilities of individual LLM and the other to improve the multi-agent workflow. Our evaluation shows that GPT-4o-as-a-Judge is more consistent across datasets when the candidate responses do not include responses from the GPT family. Additionally, we find that the LLM Feedback Loop, with Llama as the generator and Gemma as the reviewer, achieves a notable 71.8% and 73.8% win rate over single-agent Llama and Gemma, respectively.
arxiv情報
著者 | Samee Arif,Sualeha Farid,Abdul Hameed Azeemi,Awais Athar,Agha Ali Raza |
発行日 | 2024-08-16 12:01:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google