要約
生成言語モデル(GLMS)の信頼性は、重要な意思決定システムへの展開において重要です。
したがって、選択的予測やコンフォーマル予測などの認定リスク制御方法が、さまざまな監視された下流タスクの幻覚問題の軽減に適用されています。
ただし、適切な正確性メトリックの欠如は、そのような原則的な方法を言語生成タスクに適用することを妨げます。
この論文では、生成されたシーケンスの正確性を評価するためにテキストの含意の概念を活用することにより、この問題を回避し、テキスト誘導関係(FDR-E)に関する偽発見率を制御する2つの選択的生成アルゴリズムを提案します。
理論保証:$ \ texttt {sgen}^{\ texttt {sup}} $および$ \ texttt {sgen}^{\ texttt {semi}} $。
$ \ texttt {sgen}^{\ texttt {sup}} $は、選択的予測の直接的な変更であり、人間によって注釈が付けられた、伴う伴うデータを悪用する監視された学習アルゴリズムです。
人間の注釈は費用がかかるため、半監視バージョンをさらに提案します。
予測。
さらに、$ \ texttt {sgen}^{\ texttt {semi}} $は、より一般的なクラスの選択関数、ニューロ選択関数を使用し、複数の候補を与えられた最適な選択関数クラスをユーザーに提供できます。
最後に、オープンソースGLMと閉じたソースGLMの両方のベースラインからの選択効率と同等の選択効率を備えた$ \ texttt {sgen} $ファミリの有効性を実証します。
コードとデータセットはhttps://github.com/ml-postech/selective-generationで提供されています。
要約(オリジナル)
Trustworthiness of generative language models (GLMs) is crucial in their deployment to critical decision making systems. Hence, certified risk control methods such as selective prediction and conformal prediction have been applied to mitigating the hallucination problem in various supervised downstream tasks. However, the lack of appropriate correctness metric hinders applying such principled methods to language generation tasks. In this paper, we circumvent this problem by leveraging the concept of textual entailment to evaluate the correctness of the generated sequence, and propose two selective generation algorithms which control the false discovery rate with respect to the textual entailment relation (FDR-E) with a theoretical guarantee: $\texttt{SGen}^{\texttt{Sup}}$ and $\texttt{SGen}^{\texttt{Semi}}$. $\texttt{SGen}^{\texttt{Sup}}$, a direct modification of the selective prediction, is a supervised learning algorithm which exploits entailment-labeled data, annotated by humans. Since human annotation is costly, we further propose a semi-supervised version, $\texttt{SGen}^{\texttt{Semi}}$, which fully utilizes the unlabeled data by pseudo-labeling, leveraging an entailment set function learned via conformal prediction. Furthermore, $\texttt{SGen}^{\texttt{Semi}}$ enables to use more general class of selection functions, neuro-selection functions, and provides users with an optimal selection function class given multiple candidates. Finally, we demonstrate the efficacy of the $\texttt{SGen}$ family in achieving a desired FDR-E level with comparable selection efficiency to those from baselines on both open and closed source GLMs. Code and datasets are provided at https://github.com/ml-postech/selective-generation.
arxiv情報
著者 | Minjae Lee,Kyungmin Kim,Taesoo Kim,Sangdon Park |
発行日 | 2025-01-27 18:45:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google