LLMCRIT: Teaching Large Language Models to Use Criteria

要約

人間はタスクを実行する際にクライテリア(基準)に従っており、これらのクライテリアはタスク完了の質を評価するために直接使用される。したがって、モデルに基準を用いてフィードバックを提供することを学習させることは、人間やモデルがタスクをよりよく実行するのに役立つ。しかし、この分野の既存の研究は、限られた基準のセットや品質評価の側面しか考慮しない傾向がある。このギャップを埋めるために、我々は、大規模言語モデル(LLM)がタスクの実行に関する自然言語フィードバックを提供する際に、タスクに対する包括的な基準を使用することを可能にする一般的なフレームワークを提案する。特に、様々なライティングタスクについて収集されたガイドラインから半自動的に基準を導き出し、各基準についてインコンテキストデモンストレーションを構築するモデルインザループフレームワークを提示する。このアイデアを実用化するために、実世界のシナリオから論文紹介文作成、Pythonコード作成、Reddit投稿文作成の3つのタスクを選び、異なるLLMを用いてフィードバック生成フレームワークを評価する。その結果、クライテリアとデモンストレーションを取り入れることによるきめ細かな効果が明らかになり、クライテリアをより効果的に使用するようLLMに教える方法について貴重な洞察が得られた。

要約(オリジナル)

Humans follow criteria when they execute tasks, and these criteria are directly used to assess the quality of task completion. Therefore, having models learn to use criteria to provide feedback can help humans or models to perform tasks better. However, existing research in this field tends to consider only a limited set of criteria or quality assessment aspects. To fill this gap, we propose a general framework that enables large language models (LLMs) to use comprehensive criteria for a task in delivering natural language feedback on task execution. In particular, we present a model-in-the-loop framework that semi-automatically derives criteria from collected guidelines for different writing tasks and constructs in-context demonstrations for each criterion. We choose three tasks from real-world scenarios to operationalize this idea: paper introduction writing, Python code writing, and Reddit post writing, and evaluate our feedback generation framework using different LLMs. The results reveal the fine-grained effects of incorporating criteria and demonstrations and provide valuable insights on how to teach LLMs to use criteria more effectively.

arxiv情報

著者 Weizhe Yuan,Pengfei Liu,Matthias Gallé
発行日 2024-03-02 02:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク