Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time

要約

大規模な言語モデルを人間に合わせることは、優先フィードバックの本質的に多面的な性質のために挑戦的です。
既存のアプローチは通常、これを多目的最適化問題としてフレーム化しますが、多くの場合、人間が実際に決定を下す方法を見落としています。
境界のある合理性に関する研究は、人間の意思決定が満足のいく戦略に続くことを示唆しています。
このギャップを橋渡しし、満足のいくアライメントの概念を動作させるために、sitalightを提案します。これは、二次基準のしきい値ベースの制約を満たしながら主要な目的を最大化することにより、アライメントの多面的な性質に対処する推論時間フレームワークです。
満足に基づく推論アライメントアプローチのサブオプティマリティ境界を導き出すことにより、理論的洞察を提供します。
複数のベンチマークでの広範な実験を通じて、Sitalignのパフォーマンスを経験的に検証します。
たとえば、無害性のしきい値を確保しながら有用性を最大化するという主要な目的を備えたPKU-Saferlhfデータセットでは、Sitalignは、GPT-4 Win-TieのレートのためにGPT-4 Win-Tieレートの点で22.3%のマージンで最先端の多数の客観的デコード戦略を上回ります。

要約(オリジナル)

Aligning large language models with humans is challenging due to the inherently multifaceted nature of preference feedback. While existing approaches typically frame this as a multi-objective optimization problem, they often overlook how humans actually make decisions. Research on bounded rationality suggests that human decision making follows satisficing strategies-optimizing primary objectives while ensuring others meet acceptable thresholds. To bridge this gap and operationalize the notion of satisficing alignment, we propose SITAlign: an inference time framework that addresses the multifaceted nature of alignment by maximizing a primary objective while satisfying threshold-based constraints on secondary criteria. We provide theoretical insights by deriving sub-optimality bounds of our satisficing based inference alignment approach. We empirically validate SITAlign’s performance through extensive experimentation on multiple benchmarks. For instance, on the PKU-SafeRLHF dataset with the primary objective of maximizing helpfulness while ensuring a threshold on harmlessness, SITAlign outperforms the state-of-the-art multi objective decoding strategy by a margin of 22.3% in terms of GPT-4 win-tie rate for helpfulness reward while adhering to the threshold on harmlessness.

arxiv情報

著者 Mohamad Chehade,Soumya Suvra Ghosal,Souradip Chakraborty,Avinash Reddy,Dinesh Manocha,Hao Zhu,Amrit Singh Bedi
発行日 2025-05-29 17:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク