LLMCRIT: Teaching Large Language Models to Use Criteria

要約

人間はタスクを実行するときに基準に従い、これらの基準はタスクの完了の品質を評価するために直接使用されます。
したがって、モデルにフィードバックを提供するための基準の使用方法を学習させると、人間やモデルがタスクをより適切に実行できるようになります。
ただし、この分野の既存の研究は、限られた基準または品質評価の側面のみを考慮する傾向があります。
このギャップを埋めるために、大規模言語モデル (LLM) がタスクの実行に関する自然言語フィードバックを提供する際にタスクの包括的な基準を使用できるようにする一般的なフレームワークを提案します。
特に、さまざまな執筆タスクに対して収集されたガイドラインから基準を半自動的に導き出し、各基準のコンテキスト内のデモンストレーションを構築するモデルインザループ フレームワークを紹介します。
このアイデアを実用化するために、実際のシナリオから 3 つのタスク (論文の紹介文の作成、Python コードの作成、Reddit の投稿の作成) を選択し、さまざまな LLM を使用してフィードバック生成フレームワークを評価します。
この結果は、基準とデモンストレーションを組み込むことによるきめ細かい効果を明らかにし、LLM に基準をより効果的に使用する方法を教える方法について貴重な洞察を提供します。

要約(オリジナル)

Humans follow criteria when they execute tasks, and these criteria are directly used to assess the quality of task completion. Therefore, having models learn to use criteria to provide feedback can help humans or models to perform tasks better. However, existing research in this field tends to consider only a limited set of criteria or quality assessment aspects. To fill this gap, we propose a general framework that enables large language models (LLMs) to use comprehensive criteria for a task in delivering natural language feedback on task execution. In particular, we present a model-in-the-loop framework that semi-automatically derives criteria from collected guidelines for different writing tasks and constructs in-context demonstrations for each criterion. We choose three tasks from real-world scenarios to operationalize this idea: paper introduction writing, Python code writing, and Reddit post writing, and evaluate our feedback generation framework using different LLMs. The results reveal the fine-grained effects of incorporating criteria and demonstrations and provide valuable insights on how to teach LLMs to use criteria more effectively.

arxiv情報

著者 Weizhe Yuan,Pengfei Liu,Matthias Gallé
発行日 2024-06-04 15:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク