要約
基礎モデルでは、生成出力が特定のタスクの意図した結果と一致するように微調整する必要があります。
この微調整プロセスを自動化することは、通常、人間によるフィードバックが必要であり、取得するには費用がかかるため、困難です。
我々は、特定の下流タスクにおける測定可能なパフォーマンス向上からの直接フィードバックを利用して、ターゲットを絞った微調整のために強化学習を活用する手法である AutoRefine を紹介します。
言語的な偏見が推薦システムに影響を与えるアルゴリズム採用プラットフォームで発生する問題の解決方法を示します。
この設定では、生成モデルは、与えられた求人仕様を書き換えて、求人と候補者をマッチングする推奨エンジンからより多様な候補者のマッチングを受信しようとします。
私たちのモデルは、多様性と公平性の基準を満たすために、職務内容の偏見を検出して規制します。
公的採用データセットと現実世界の採用プラットフォームでの実験では、大規模な言語モデルが現実世界でのバイアスの特定と軽減にどのように役立つかを示しています。
要約(オリジナル)
Foundation models require fine-tuning to ensure their generative outputs align with intended results for specific tasks. Automating this fine-tuning process is challenging, as it typically needs human feedback that can be expensive to acquire. We present AutoRefine, a method that leverages reinforcement learning for targeted fine-tuning, utilizing direct feedback from measurable performance improvements in specific downstream tasks. We demonstrate the method for a problem arising in algorithmic hiring platforms where linguistic biases influence a recommendation system. In this setting, a generative model seeks to rewrite given job specifications to receive more diverse candidate matches from a recommendation engine which matches jobs to candidates. Our model detects and regulates biases in job descriptions to meet diversity and fairness criteria. The experiments on a public hiring dataset and a real-world hiring platform showcase how large language models can assist in identifying and mitigation biases in the real world.
arxiv情報
著者 | Buse Sibel Korkmaz,Rahul Nair,Elizabeth M. Daly,Evangelos Anagnostopoulos,Christos Varytimidis,Antonio del Rio Chanona |
発行日 | 2025-01-13 13:36:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google