Extended Inductive Reasoning for Personalized Preference Inference from Behavioral Signals

要約

大規模な言語モデル(LLMS)は、数学やコーディングなどの複雑な推論タスクで大きな成功を示しています。
演ductive的な推論が優勢であるこれらのタスクとは対照的に、誘導的な推論\テキストは、不完全な証拠から一般的なルールを導き出す能力を採用していないままである。
このペーパーでは、パーソナライズされた好みの推論のレンズを介してLLMの拡張された誘導推論を調査します。これは、現在のアプローチが多様なユーザーの好みをキャプチャするのに苦労しているLLMアライメントの重要な課題です。
ユーザーの好みは通常、さまざまな相互作用形式に暗黙的に埋め込まれているため、タスクは強力な帰納的推論機能を必要とし、散乱信号から一貫した好みパターンを合成することをモデルが必要とします。
\ textSc {alignxplore}を提案します。これは、ユーザーの相互作用履歴における行動信号から体系的な優先推論を可能にするために拡張された推論チェーンを活用するモデルです。
合成データに基づいてコールドスタートトレーニングとその後のオンライン強化学習を組み合わせることにより、\ textSc {alignxplore}を開発します。
広範な実験を通じて、\ textSc {alignxplore}は、ドメイン内および領域外のベンチマークで平均11.05 \%でバックボーンモデルを大幅に改善し、異なる入力形式と下流モデルにわたって強力な一般化能力を維持することを実証します。
さらなる分析により、報酬モデリング戦略の体系的な比較を通じて、優先推論の学習のためのベストプラクティスが確立され、トレーニング中の人間のような誘導推論パターンの出現を明らかにします。

要約(オリジナル)

Large language models (LLMs) have demonstrated significant success in complex reasoning tasks such as math and coding. In contrast to these tasks where deductive reasoning predominates, inductive reasoning\textemdash the ability to derive general rules from incomplete evidence, remains underexplored. This paper investigates extended inductive reasoning in LLMs through the lens of personalized preference inference, a critical challenge in LLM alignment where current approaches struggle to capture diverse user preferences. The task demands strong inductive reasoning capabilities as user preferences are typically embedded implicitly across various interaction forms, requiring models to synthesize consistent preference patterns from scattered signals. We propose \textsc{AlignXplore}, a model that leverages extended reasoning chains to enable systematic preference inference from behavioral signals in users’ interaction histories. We develop \textsc{AlignXplore} by combining cold-start training based on synthetic data with subsequent online reinforcement learning. Through extensive experiments, we demonstrate that \textsc{AlignXplore} achieves substantial improvements over the backbone model by an average of 11.05\% on in-domain and out-of-domain benchmarks, while maintaining strong generalization ability across different input formats and downstream models. Further analyses establish best practices for preference inference learning through systematic comparison of reward modeling strategies, while revealing the emergence of human-like inductive reasoning patterns during training.

arxiv情報

著者 Jia-Nan Li,Jian Guan,Wei Wu,Rui Yan
発行日 2025-05-23 16:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク