ALLURE: Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning

要約

論文の採点から医療文書の要約に至るまで、大規模言語モデル (LLM) は、人間と AI の両方によって生成されたテキストの評価にますます使用されています。
ただし、LLM はその幅広い用途にもかかわらず、明確な障害モードを示すため、徹底的な監査とテキスト評価機能の改善が必要です。
ここでは、大規模言語モデルの理解および推論エラーを監査するための体系的なアプローチである ALLURE を紹介します。
ALLURE には、LLM によって生成された評価を注釈付きデータと比較し、重大な逸脱のインスタンスを評価器に繰り返し組み込むことが含まれます。これにより、コンテキスト内学習 (ICL) を活用して、LLM によるテキストの堅牢な評価が強化および改善されます。
この反復プロセスを通じて、評価者 LLM のパフォーマンスを改善し、最終的に評価プロセスにおける人間のアノテーターへの依存を減らします。
私たちは、ALLURE が、医療要約、教育、生産性など、テキスト データの評価に関連するさまざまなドメインで LLM の多様なアプリケーションに役立つことを期待しています。

要約(オリジナル)

From grading papers to summarizing medical documents, large language models (LLMs) are evermore used for evaluation of text generated by humans and AI alike. However, despite their extensive utility, LLMs exhibit distinct failure modes, necessitating a thorough audit and improvement of their text evaluation capabilities. Here we introduce ALLURE, a systematic approach to Auditing Large Language Models Understanding and Reasoning Errors. ALLURE involves comparing LLM-generated evaluations with annotated data, and iteratively incorporating instances of significant deviation into the evaluator, which leverages in-context learning (ICL) to enhance and improve robust evaluation of text by LLMs. Through this iterative process, we refine the performance of the evaluator LLM, ultimately reducing reliance on human annotators in the evaluation process. We anticipate ALLURE to serve diverse applications of LLMs in various domains related to evaluation of textual data, such as medical summarization, education, and and productivity.

arxiv情報

著者 Hosein Hasanbeig,Hiteshi Sharma,Leo Betthauser,Felipe Vieira Frujeri,Ida Momennejad
発行日 2023-09-27 00:26:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク