Risk-Averse Finetuning of Large Language Models

要約

私たちは、特定のプロンプトに応じて大規模言語モデル (LLM) による否定的または有害なコンテンツの生成を軽減するという課題を検討します。
私たちは、リスク回避の原則を LLM の微調整に統合して、有害な出力、特にまれではあるが重要なイベントの発生を最小限に抑えることを提案します。
Conditional Value at Risk (CVaR) のリスク尺度を最適化することで、私たちの方法論は、生成タスクの有効性を維持しながら有害な出力を回避する際に優れたパフォーマンスを発揮するように LLM を訓練します。
感情修正および毒性軽減タスクに関する実証的評価は、より安全で建設的なオンライン談話環境の促進におけるヒューマンフィードバックによるリスク回避強化学習 (RLHF) の有効性を実証しています。

要約(オリジナル)

We consider the challenge of mitigating the generation of negative or toxic content by the Large Language Models (LLMs) in response to certain prompts. We propose integrating risk-averse principles into LLM fine-tuning to minimize the occurrence of harmful outputs, particularly rare but significant events. By optimizing the risk measure of Conditional Value at Risk (CVaR), our methodology trains LLMs to exhibit superior performance in avoiding toxic outputs while maintaining effectiveness in generative tasks. Empirical evaluations on sentiment modification and toxicity mitigation tasks demonstrate the efficacy of risk-averse reinforcement learning with human feedback (RLHF) in promoting a safer and more constructive online discourse environment.

arxiv情報

著者 Sapana Chaudhary,Ujwal Dinesha,Dileep Kalathil,Srinivas Shakkottai
発行日 2025-01-12 19:48:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク