要約
自然言語説明 (NLE) は、大規模言語モデル (LLM) の決定の背後にある理由を解明するために不可欠です。
LLM を使用して NLE を生成するための多くの技術が開発されています。
ただし、人間と同様に、LLM も最初の試行で常に最適な NLE を生成するとは限りません。
人間の学習プロセスにインスピレーションを得て、Cross-Refine を導入します。これは、2 つの LLM をそれぞれ生成者と批評家として展開することでロール モデリングを採用します。
ジェネレーターは最初の NLE を出力し、批評家から提供されたフィードバックと提案を使用してこの最初の説明を改良します。
Cross-Refine では、教師付きトレーニング データや追加のトレーニングは必要ありません。
私たちは、3 つの最先端のオープンソース LLM を使用し、自動評価と人間による評価を通じて 3 つの NLP タスクにわたる Cross-Refine を検証します。
説明を洗練するために自己フィードバックのみを利用する Self-Refine (Madaan et al., 2023) をベースラインとして選択します。
自動評価とユーザー調査から得られた結果は、Cross-Refine が Self-Refine よりも優れていることを示しています。
一方、Cross-Refine はそれほど強力ではない LLM でも効果的に実行できますが、Self-Refine は ChatGPT でのみ強力な結果をもたらします。
さらに、フィードバックと提案の重要性を評価するためにアブレーション研究を実施します。
どちらも説明を洗練する上で重要な役割を果たします。
さらに、英語とドイツ語のバイリンガル データセットで Cross-Refine を評価します。
要約(オリジナル)
Natural language explanations (NLEs) are vital for elucidating the reasoning behind large language model (LLM) decisions. Many techniques have been developed to generate NLEs using LLMs. However, like humans, LLMs might not always produce optimal NLEs on first attempt. Inspired by human learning processes, we introduce Cross-Refine, which employs role modeling by deploying two LLMs as generator and critic, respectively. The generator outputs a first NLE and then refines this initial explanation using feedback and suggestions provided by the critic. Cross-Refine does not require any supervised training data or additional training. We validate Cross-Refine across three NLP tasks using three state-of-the-art open-source LLMs through automatic and human evaluation. We select Self-Refine (Madaan et al., 2023) as the baseline, which only utilizes self-feedback to refine the explanations. Our findings from automatic evaluation and a user study indicate that Cross-Refine outperforms Self-Refine. Meanwhile, Cross-Refine can perform effectively with less powerful LLMs, whereas Self-Refine only yields strong results with ChatGPT. Additionally, we conduct an ablation study to assess the importance of feedback and suggestions. Both of them play an important role in refining explanations. We further evaluate Cross-Refine on a bilingual dataset in English and German.
arxiv情報
著者 | Qianli Wang,Tatiana Anikina,Nils Feldhus,Simon Ostermann,Sebastian Möller,Vera Schmitt |
発行日 | 2024-12-02 13:04:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google