ReMoDetect: Reward Models Recognize Aligned LLM’s Generations

要約

大規模言語モデル (LLM) の優れた機能と容易なアクセスにより、社会的リスク (例: フェイクニュースの生成) が大幅に増加しており、安全に使用するための LLM 生成テキスト (LGT) 検出方法の開発が必要です。
ただし、膨大な数の LLM があるため、LGT の検出は困難であり、各 LLM を個別に説明するのは非現実的です。
したがって、これらのモデルに共通する特徴を特定することが重要です。
この論文では、最近の強力な LLM の共通の機能、つまりアライメント トレーニング、つまり人間が好むテキストを生成するための LLM のトレーニングに注目します。
私たちの重要な発見は、これらの調整された LLM は人間の好みを最大化するように訓練されているため、人間が書いたテキストよりも高い推定好みを持つテキストを生成するということです。
したがって、そのようなテキストは、報酬モデル (つまり、人間の嗜好分布をモデル化するように訓練された LLM) を使用することで簡単に検出できます。
この発見に基づいて、報酬モデルの検出能力をさらに向上させるための 2 つのトレーニング スキームを提案します。すなわち、(i) 報酬モデルが位置合わせされた LGT をさらに優先するように継続的に選好を微調整すること、および (ii) 人間/LLM の報酬モデリングです。
混合テキスト (整列 LLM を使用して人間が書いたテキストを言い換えたテキスト)。これは、決定境界をよりよく学習するための、LGT と人間が書いたテキストの間の中央優先テキスト コーパスとして機能します。
私たちは、12 の整列された LLM にわたる 6 つのテキスト ドメインを考慮することによって広範な評価を提供し、そこで私たちの方法は最先端の結果を実証します。
コードは https://github.com/hyunseoklee-ai/reward_llm_detect で入手できます。

要約(オリジナル)

The remarkable capabilities and easy accessibility of large language models (LLMs) have significantly increased societal risks (e.g., fake news generation), necessitating the development of LLM-generated text (LGT) detection methods for safe usage. However, detecting LGTs is challenging due to the vast number of LLMs, making it impractical to account for each LLM individually; hence, it is crucial to identify the common characteristics shared by these models. In this paper, we draw attention to a common feature of recent powerful LLMs, namely the alignment training, i.e., training LLMs to generate human-preferable texts. Our key finding is that as these aligned LLMs are trained to maximize the human preferences, they generate texts with higher estimated preferences even than human-written texts; thus, such texts are easily detected by using the reward model (i.e., an LLM trained to model human preference distribution). Based on this finding, we propose two training schemes to further improve the detection ability of the reward model, namely (i) continual preference fine-tuning to make the reward model prefer aligned LGTs even further and (ii) reward modeling of Human/LLM mixed texts (a rephrased texts from human-written texts using aligned LLMs), which serves as a median preference text corpus between LGTs and human-written texts to learn the decision boundary better. We provide an extensive evaluation by considering six text domains across twelve aligned LLMs, where our method demonstrates state-of-the-art results. Code is available at https://github.com/hyunseoklee-ai/reward_llm_detect.

arxiv情報

著者 Hyunseok Lee,Jihoon Tack,Jinwoo Shin
発行日 2024-05-27 17:38:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク