Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning

要約

大規模な言語モデル(LLMS)は、ドメイン固有の知識で応答を補うために、検索された高級生成(RAG)メカニズムを通じて、実際のパーソナライズされたアプリケーションにますます統合されています。
しかし、RAGで使用される知識ベースの貴重でしばしば独自の性質は、敵による不正使用のリスクをもたらします。
これらの知識ベースを保護するための透かしのテクニックとして一般化できる既存の方法は、通常、中毒またはバックドア攻撃を伴います。
ただし、これらの方法では、LLMの検証サンプルの結果を変更し、必然的にこれらの透かしを異常検出の影響を受けやすく、新しいセキュリティリスクを導入する必要があります。
これらの課題に対処するために、知識ベースの「無害な」著作権保護について\ name {}を提案します。
LLMの最終出力を操作する代わりに、\ name {}インプラントは、最終回答の正しさを維持し、考え方(COT)の推論の空間で明確でありながら良性検証行動をインプラントします。
私たちの方法には3つの主要な段階があります。(1)COTの生成:検証の質問ごとに、透かし行動を構築するためのターゲットベースを含む2つの「無実の」COTを生成します。
(2)透かしフレーズとターゲットベースのコットの最適化:理論分析に触発されて、\ emphed {black-box}および\ emph {text-only}設定の下での検索エラーを最小限に抑えるように最適化し、透かし式検証クエリのみが知識ベースに触れられているCOTを取得できるようにします。
(3)所有権の検証:ペアワイズWilcoxonテストを利用して、疑わしいLLMが、その応答を透かし型および良性検証クエリに比較することにより、保護された知識ベースで増強されているかどうかを検証します。
多様なベンチマークでの実験は、\ name {}が知識ベースと適応攻撃に対する抵抗を効果的に保護することを示しています。

要約(オリジナル)

Large language models (LLMs) are increasingly integrated into real-world personalized applications through retrieval-augmented generation (RAG) mechanisms to supplement their responses with domain-specific knowledge. However, the valuable and often proprietary nature of the knowledge bases used in RAG introduces the risk of unauthorized usage by adversaries. Existing methods that can be generalized as watermarking techniques to protect these knowledge bases typically involve poisoning or backdoor attacks. However, these methods require altering the LLM’s results of verification samples, inevitably making these watermarks susceptible to anomaly detection and even introducing new security risks. To address these challenges, we propose \name{} for `harmless’ copyright protection of knowledge bases. Instead of manipulating LLM’s final output, \name{} implants distinct yet benign verification behaviors in the space of chain-of-thought (CoT) reasoning, maintaining the correctness of the final answer. Our method has three main stages: (1) Generating CoTs: For each verification question, we generate two `innocent’ CoTs, including a target CoT for building watermark behaviors; (2) Optimizing Watermark Phrases and Target CoTs: Inspired by our theoretical analysis, we optimize them to minimize retrieval errors under the \emph{black-box} and \emph{text-only} setting of suspicious LLM, ensuring that only watermarked verification queries can retrieve their correspondingly target CoTs contained in the knowledge base; (3) Ownership Verification: We exploit a pairwise Wilcoxon test to verify whether a suspicious LLM is augmented with the protected knowledge base by comparing its responses to watermarked and benign verification queries. Our experiments on diverse benchmarks demonstrate that \name{} effectively protects knowledge bases and its resistance to adaptive attacks.

arxiv情報

著者 Junfeng Guo,Yiming Li,Ruibo Chen,Yihan Wu,Chenxi Liu,Yanshuo Chen,Heng Huang
発行日 2025-05-23 15:35:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.IR, cs.LG | Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning はコメントを受け付けていません

Automata Learning of Preferences over Temporal Logic Formulas from Pairwise Comparisons

要約

多くの好みの誘発アルゴリズムは、異なる属性を持つ命題論理式またはアイテムに対する優先を考慮します。
順次の意思決定では、ユーザーの好みは、可能性のある結果よりも予約注文することができます。それぞれが一時的なイベントシーケンスです。
このペーパーでは、ユーザーの不明な好みが、時間目標と呼ばれる通常の言語(時間シーケンスのセット)を超える予約注文によって表される優先推論の問題のクラスを考慮します。
有限の単語間の有限のペアワイズ比較セットを考えると、目的は、これらの目標を超える一時的な目標のセットと事前注文の両方を学習することです。
最初に、一時的な目標をめぐる優先関係が、受理条件よりも予約注文で増強された決定論的な有限オートマトンである優先決定論的有限オートマトン(PDFA)によってモデル化できることを示します。
優先推論の問題は、PDFAの学習に減少します。
この問題は計算上挑戦的であることが示されており、特定の整数$ k $よりも小さいサイズのPDFAが存在するかどうかを判断する問題は、サンプルと一致し、NP不完全です。
特徴的なサンプルの特性を形式化し、特徴的なサンプルを考慮して、学習を保証するアルゴリズムを開発します。これは、サンプルが描画される真のPDFAに相当する最小限のPDFAです。
ランニングの例を介してこの方法を提示し、ロボットモーション計画の問題を使用して詳細な分析を提供します。

要約(オリジナル)

Many preference elicitation algorithms consider preference over propositional logic formulas or items with different attributes. In sequential decision making, a user’s preference can be a preorder over possible outcomes, each of which is a temporal sequence of events. This paper considers a class of preference inference problems where the user’s unknown preference is represented by a preorder over regular languages (sets of temporal sequences), referred to as temporal goals. Given a finite set of pairwise comparisons between finite words, the objective is to learn both the set of temporal goals and the preorder over these goals. We first show that a preference relation over temporal goals can be modeled by a Preference Deterministic Finite Automaton (PDFA), which is a deterministic finite automaton augmented with a preorder over acceptance conditions. The problem of preference inference reduces to learning the PDFA. This problem is shown to be computationally challenging, with the problem of determining whether there exists a PDFA of size smaller than a given integer $k$, consistent with the sample, being NP-Complete. We formalize the properties of characteristic samples and develop an algorithm that guarantees to learn, given a characteristic sample, the minimal PDFA equivalent to the true PDFA from which the sample is drawn. We present the method through a running example and provide detailed analysis using a robotic motion planning problem.

arxiv情報

著者 Hazhar Rahmani,Jie Fu
発行日 2025-05-23 15:35:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.FL, cs.LG, cs.SY, eess.SY | Automata Learning of Preferences over Temporal Logic Formulas from Pairwise Comparisons はコメントを受け付けていません

Structured Thinking Matters: Improving LLMs Generalization in Causal Inference Tasks

要約

この分野での顕著な進歩にもかかわらず、LLMは因果関係を相関と区別する上で信頼できないままです。
Corr2Caus Dataset Benchmarkの最近の結果は、GPT-4(F1スコア:29.08)などの最先端のLLMがランダムベースラインをわずかに上回っていることを明らかにしています(ランダム均一、F1スコア:20.38)。
この制限に取り組むために、新しい構造化されたアプローチを提案します。因果質問に直接答えるのではなく、モデルを構成する能力をモデルに構成する能力を提供し、モデルを構造化された知識グラフを構築し、因果関係のクエリに答えるために体系的にエンコードします。
この中間表現は、モデルの因果能力を大幅に向上させます。
QWEN3-32Bモデル(推論モデル)を使用したCorr2Caus Dataset Benchmarkのテストサブセットでの実験は、標準的な直接プロンプトメソッドを大幅に増加させ、F1スコアを32.71から48.26(相対的な増加47.5%以上)に改善し、精度とリコールでの顕著な改善を伴います。
これらの結果は、モデルにその考え方を構築する能力を提供し、多様な因果推論タスク全体のより広範な一般化のその有望な可能性を強調する有効性を強調しています。

要約(オリジナル)

Despite remarkable advances in the field, LLMs remain unreliable in distinguishing causation from correlation. Recent results from the Corr2Cause dataset benchmark reveal that state-of-the-art LLMs — such as GPT-4 (F1 score: 29.08) — only marginally outperform random baselines (Random Uniform, F1 score: 20.38), indicating limited capacity of generalization. To tackle this limitation, we propose a novel structured approach: rather than directly answering causal queries, we provide the model with the capability to structure its thinking by guiding the model to build a structured knowledge graph, systematically encoding the provided correlational premises, to answer the causal queries. This intermediate representation significantly enhances the model’s causal capabilities. Experiments on the test subset of the Corr2Cause dataset benchmark with Qwen3-32B model (reasoning model) show substantial gains over standard direct prompting methods, improving F1 scores from 32.71 to 48.26 (over 47.5% relative increase), along with notable improvements in precision and recall. These results underscore the effectiveness of providing the model with the capability to structure its thinking and highlight its promising potential for broader generalization across diverse causal inference tasks.

arxiv情報

著者 Wentao Sun,Joao Paulo Nogueira,Alonso Silva
発行日 2025-05-23 15:37:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Structured Thinking Matters: Improving LLMs Generalization in Causal Inference Tasks はコメントを受け付けていません

On the Impact of the Utility in Semivalue-based Data Valuation

要約

Semivalueベースのデータ評価は、協同ゲーム理論の直感を使用して、各データポイントを下流タスクへの貢献を反映する値を割り当てます。
それでも、これらの値は実務家のユーティリティの選択に依存し、質問を提起します:半分ベースのデータ評価はユーティリティの変更に対してどれほど堅牢ですか?
この問題は、ユーティリティが複数の基準の間のトレードオフとして設定され、実務家が複数の等しく有効なユーティリティから選択しなければならない場合に重要です。
データセットの空間署名の概念を導入することでそれに対処します。セミバリューを考慮して、各データポイントをより低い次元空間に埋め込み、ユーティリティが線形関数になり、データ評価フレームワークをより単純な幾何学的な画像に適したものにしました。
これに基づいて、実務家にユーティリティが変化するにつれてデータの評価結果が変わるかどうかを通知する明示的な堅牢性メトリックを中心とした実用的な方法論を提案します。
このアプローチを多様なデータセットとセミバリューで検証し、ランク相関分析との強力な一致を実証し、セミバリューを選択することで堅牢性を増幅または減少させる方法についての分析的洞察を提供します。

要約(オリジナル)

Semivalue-based data valuation uses cooperative-game theory intuitions to assign each data point a value reflecting its contribution to a downstream task. Still, those values depend on the practitioner’s choice of utility, raising the question: How robust is semivalue-based data valuation to changes in the utility? This issue is critical when the utility is set as a trade-off between several criteria and when practitioners must select among multiple equally valid utilities. We address it by introducing the notion of a dataset’s spatial signature: given a semivalue, we embed each data point into a lower-dimensional space where any utility becomes a linear functional, making the data valuation framework amenable to a simpler geometric picture. Building on this, we propose a practical methodology centered on an explicit robustness metric that informs practitioners whether and by how much their data valuation results will shift as the utility changes. We validate this approach across diverse datasets and semivalues, demonstrating strong agreement with rank-correlation analyses and offering analytical insight into how choosing a semivalue can amplify or diminish robustness.

arxiv情報

著者 Mélissa Tamine,Benjamin Heymann,Patrick Loiseau,Maxime Vono
発行日 2025-05-23 15:42:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG | On the Impact of the Utility in Semivalue-based Data Valuation はコメントを受け付けていません

Compositional Causal Reasoning Evaluation in Language Models

要約

因果的推論と構成の推論は、AIの2つの中核となる願望です。
これらの動作の範囲を測定するには、原則的な評価方法が必要です。
両方の動作を同時に考慮し、組成因果推論(CCR)と呼ぶ統一された視点を探ります:因果測定がどのように構成するか、同等に、グラフを介してどのように因果量が伝播するかを推測する能力。
平均的な治療効果と必要性と十分性の確率について、CCRの体系的な評価のためのフレームワークを瞬時に導きます。
概念実証として、Llama、Phi、およびGPTファミリの言語モデルのCCR評価を示します。
数学の単語の問題では、私たちのフレームワークは、分類学的に異なるエラーパターンの範囲を明らかにしました。
CCRエラーは、O1を除くすべてのモデルの因果経路の複雑さとともに増加しました。

要約(オリジナル)

Causal reasoning and compositional reasoning are two core aspirations in AI. Measuring the extent of these behaviors requires principled evaluation methods. We explore a unified perspective that considers both behaviors simultaneously, termed compositional causal reasoning (CCR): the ability to infer how causal measures compose and, equivalently, how causal quantities propagate through graphs. We instantiate a framework for the systematic evaluation of CCR for the average treatment effect and the probability of necessity and sufficiency. As proof of concept, we demonstrate CCR evaluation for language models in the LLama, Phi, and GPT families. On a math word problem, our framework revealed a range of taxonomically distinct error patterns. CCR errors increased with the complexity of causal paths for all models except o1.

arxiv情報

著者 Jacqueline R. M. A. Maasch,Alihan Hüyük,Xinnuo Xu,Aditya V. Nori,Javier Gonzalez
発行日 2025-05-23 15:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Compositional Causal Reasoning Evaluation in Language Models はコメントを受け付けていません

Linear Mixture Distributionally Robust Markov Decision Processes

要約

多くの現実世界の意思決定の問題は、オフダイナミクスの課題に直面しています。エージェントは、ソースドメインでポリシーを学習し、異なる状態遷移を持つターゲットドメインに展開します。
分布的に堅牢なMarkov決定プロセス(DRMDP)は、移行ダイナミクスの事前に指定された不確実性セット内で最悪の環境でうまく機能する堅牢なポリシーを見つけることにより、この課題に対処します。
その有効性は、ダイナミクスの事前知識に基づいて、これらの不確実性セットの適切な設計に大きく依存しています。
この作業では、公称ダイナミクスが線形混合モデルであると想定される新しい線形混合DRMDPフレームワークを提案します。
既存の不確実性セットとは対照的に、公称カーネルを中心としたボールとして直接定義されたセットは、線形混合DRMDPSは、混合重重量パラメーターの周りのボールに基づいて不確実性セットを定義します。
この新しいフレームワークは、混合モデルに関する事前知識が存在する場合、$(s、a)$ $ – $ d $ rectangularityに基づいた従来のモデルと比較して、不確実性のより洗練された表現を提供することを示します。
一般的な$ f $ divergenceが定義された不確実性セットを含む線形混合DRMDPにおける堅牢なポリシー学習のメタアルゴリズムを提案し、3つの発散メトリックのインスタンス化:総変動、Kullback-Leibler、および$ \ Chi^2 $の発散の3つの発散メトリックのインスタンス化の下でサンプルの複雑さを分析します。
これらの結果は、線形混合DRMDPの統計的学習性を確立し、この新しい設定に関する将来の研究のための理論的基盤を築きます。

要約(オリジナル)

Many real-world decision-making problems face the off-dynamics challenge: the agent learns a policy in a source domain and deploys it in a target domain with different state transitions. The distributionally robust Markov decision process (DRMDP) addresses this challenge by finding a robust policy that performs well under the worst-case environment within a pre-specified uncertainty set of transition dynamics. Its effectiveness heavily hinges on the proper design of these uncertainty sets, based on prior knowledge of the dynamics. In this work, we propose a novel linear mixture DRMDP framework, where the nominal dynamics is assumed to be a linear mixture model. In contrast with existing uncertainty sets directly defined as a ball centered around the nominal kernel, linear mixture DRMDPs define the uncertainty sets based on a ball around the mixture weighting parameter. We show that this new framework provides a more refined representation of uncertainties compared to conventional models based on $(s,a)$-rectangularity and $d$-rectangularity, when prior knowledge about the mixture model is present. We propose a meta algorithm for robust policy learning in linear mixture DRMDPs with general $f$-divergence defined uncertainty sets, and analyze its sample complexities under three divergence metrics instantiations: total variation, Kullback-Leibler, and $\chi^2$ divergences. These results establish the statistical learnability of linear mixture DRMDPs, laying the theoretical foundation for future research on this new setting.

arxiv情報

著者 Zhishuai Liu,Pan Xu
発行日 2025-05-23 15:48:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, stat.ML | Linear Mixture Distributionally Robust Markov Decision Processes はコメントを受け付けていません

Recursive Deep Inverse Reinforcement Learning

要約

展示された行動からの敵の目標を推測することは、サイバーセキュリティ、軍事、戦略ゲームなどのドメインにおけるカウンター計画および非協力的なマルチエージェントシステムに不可欠です。
最大のエントロピー原則に基づく深い逆補強学習(IRL)方法は、敵の目標を回復することで有望ですが、通常はオフラインであり、グラデーション降下を備えた大きなバッチサイズを必要とし、1次の更新に依存し、リアルタイムシナリオの適用性を制限します。
敵対的な行動と目標を管理するコスト関数を回復するために、オンライン再帰的な深部補強学習(RDIRL)アプローチを提案します。
具体的には、拡張されたカルマンフィルター(EKF)に似たシーケンシャルの2次ニュートンアップデートを使用して、標準ガイドコスト学習(GCL)目的の上限を最小限に抑え、高速(収束の観点から)学習アルゴリズムにつながります。
Rdirlは、標準的および敵対的なベンチマークタスクにおける専門家のエージェントのコストおよび報酬機能を回収できることを実証します。
ベンチマークタスクの実験は、提案されたアプローチがいくつかの主要なIRLアルゴリズムを上回ることを示しています。

要約(オリジナル)

Inferring an adversary’s goals from exhibited behavior is crucial for counterplanning and non-cooperative multi-agent systems in domains like cybersecurity, military, and strategy games. Deep Inverse Reinforcement Learning (IRL) methods based on maximum entropy principles show promise in recovering adversaries’ goals but are typically offline, require large batch sizes with gradient descent, and rely on first-order updates, limiting their applicability in real-time scenarios. We propose an online Recursive Deep Inverse Reinforcement Learning (RDIRL) approach to recover the cost function governing the adversary actions and goals. Specifically, we minimize an upper bound on the standard Guided Cost Learning (GCL) objective using sequential second-order Newton updates, akin to the Extended Kalman Filter (EKF), leading to a fast (in terms of convergence) learning algorithm. We demonstrate that RDIRL is able to recover cost and reward functions of expert agents in standard and adversarial benchmark tasks. Experiments on benchmark tasks show that our proposed approach outperforms several leading IRL algorithms.

arxiv情報

著者 Paul Ghanem,Michael Potter,Owen Howell,Pau Closas,Alireza Ramezani,Deniz Erdogmus,Tales Imbiriba
発行日 2025-05-23 15:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Recursive Deep Inverse Reinforcement Learning はコメントを受け付けていません

Minds, Brains, AI

要約

昨年かそこらで、何十年も前に戻って、主要な計算科学者、エンジニア、および人工的な一般情報であるAGIが5年または10年先にいるという広範な主張がありましたが、科学的証拠のシンティラはありませんが、これらの主張の幅広い団体について。
コンピューターは意識的になり、心の理論を持ち、考えて、理由を持ち、人間よりも賢くなります。
しかし、主張は科学ではなくサイエンスフィクションです。
この記事では、認知および神経科学、進化的証拠、言語学、データサイエンス、比較心理学、自動運転車、ロボットからの広範な科学研究と関連するソースを使用して、次の3つの命題の証拠をレビューします。
そして学習科学。
(1)コンピューティングマシンは考えていますか、それとも理由はありますか?
(2)コンピューティングマシンは感覚的または意識していますか?
(3)コンピューティングマシンには心の理論がありますか?

要約(オリジナル)

In the last year or so and going back many decades there has been extensive claims by major computational scientists, engineers, and others that AGI, artificial general intelligence, is five or ten years away, but without a scintilla of scientific evidence, for a broad body of these claims. Computers will become conscious, have a theory of mind, think and reason, will become more intelligent than humans, and so on. But the claims are science fiction, not science. This article reviews evidence for the following three propositions using extensive body of scientific research and related sources from the cognitive and neurosciences, evolutionary evidence, linguistics, data science, comparative psychology, self-driving cars, robotics. and the learning sciences. (1) Do computing machines think or reason? (2) Are computing machines sentient or conscious? (3) Do computing machines have a theory of mind?

arxiv情報

著者 Jay Seitz
発行日 2025-05-23 16:02:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Minds, Brains, AI はコメントを受け付けていません

Towards Uncertainty Aware Task Delegation and Human-AI Collaborative Decision-Making

要約

ドメイン全体での意思決定をサポートする際の人工知能(AI)の約束が高まっているにもかかわらず、AIへの適切な人間の依存を促進することは依然として重要な課題です。
このホワイトペーパーでは、AIへのタスク委任の距離ベースの不確実性スコアを調査する有用性を調査し、これらのスコアを人間の意思決定のための埋め込み表現を通じて視覚化する方法を説明します。
物理的な脳卒中リハビリテーション評価のためのAIベースのシステムを開発した後、私たちは19人の医療専門家と10人の学生を対象とした研究を実施し、AIへのユーザーの依存に対する距離ベースの不確実性スコアを調査する効果を理解しました。
私たちの調査結果は、距離ベースの不確実性スコアが、不確実なケースを特定する際に従来の確率に基づく不確実性スコアよりも優れていることを示しました。
さらに、タスク委任の信頼性スコアを調査し、距離ベースの不確実性スコアの埋め込みベースの視覚化をレビューした後、参加者は正しい決定の8.20%高い割合、決定の7.15%が正しいスコアを確認した後のAI出力を確認した後の7.14%低い割合を達成しました($ 0.01 $)。
私たちの調査結果は、距離ベースの不確実性スコアの可能性を強調しており、意思決定の正確性を高め、AIへの適切な依存を強化しながら、人間と共同の意思決定に対する継続的な課題について議論しています。

要約(オリジナル)

Despite the growing promise of artificial intelligence (AI) in supporting decision-making across domains, fostering appropriate human reliance on AI remains a critical challenge. In this paper, we investigate the utility of exploring distance-based uncertainty scores for task delegation to AI and describe how these scores can be visualized through embedding representations for human-AI decision-making. After developing an AI-based system for physical stroke rehabilitation assessment, we conducted a study with 19 health professionals and 10 students in medicine/health to understand the effect of exploring distance-based uncertainty scores on users’ reliance on AI. Our findings showed that distance-based uncertainty scores outperformed traditional probability-based uncertainty scores in identifying uncertain cases. In addition, after exploring confidence scores for task delegation and reviewing embedding-based visualizations of distance-based uncertainty scores, participants achieved an 8.20% higher rate of correct decisions, a 7.15% higher rate of changing their decisions to correct ones, and a 7.14% lower rate of incorrect changes after reviewing AI outputs than those reviewing probability-based uncertainty scores ($p<0.01$). Our findings highlight the potential of distance-based uncertainty scores to enhance decision accuracy and appropriate reliance on AI while discussing ongoing challenges for human-AI collaborative decision-making.

arxiv情報

著者 Min Hun Lee,Martyn Zhe Yu Tok
発行日 2025-05-23 16:12:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG | Towards Uncertainty Aware Task Delegation and Human-AI Collaborative Decision-Making はコメントを受け付けていません

Extended Inductive Reasoning for Personalized Preference Inference from Behavioral Signals

要約

大規模な言語モデル(LLMS)は、数学やコーディングなどの複雑な推論タスクで大きな成功を示しています。
演ductive的な推論が優勢であるこれらのタスクとは対照的に、誘導的な推論\テキストは、不完全な証拠から一般的なルールを導き出す能力を採用していないままである。
このペーパーでは、パーソナライズされた好みの推論のレンズを介してLLMの拡張された誘導推論を調査します。これは、現在のアプローチが多様なユーザーの好みをキャプチャするのに苦労しているLLMアライメントの重要な課題です。
ユーザーの好みは通常、さまざまな相互作用形式に暗黙的に埋め込まれているため、タスクは強力な帰納的推論機能を必要とし、散乱信号から一貫した好みパターンを合成することをモデルが必要とします。
\ textSc {alignxplore}を提案します。これは、ユーザーの相互作用履歴における行動信号から体系的な優先推論を可能にするために拡張された推論チェーンを活用するモデルです。
合成データに基づいてコールドスタートトレーニングとその後のオンライン強化学習を組み合わせることにより、\ textSc {alignxplore}を開発します。
広範な実験を通じて、\ textSc {alignxplore}は、ドメイン内および領域外のベンチマークで平均11.05 \%でバックボーンモデルを大幅に改善し、異なる入力形式と下流モデルにわたって強力な一般化能力を維持することを実証します。
さらなる分析により、報酬モデリング戦略の体系的な比較を通じて、優先推論の学習のためのベストプラクティスが確立され、トレーニング中の人間のような誘導推論パターンの出現を明らかにします。

要約(オリジナル)

Large language models (LLMs) have demonstrated significant success in complex reasoning tasks such as math and coding. In contrast to these tasks where deductive reasoning predominates, inductive reasoning\textemdash the ability to derive general rules from incomplete evidence, remains underexplored. This paper investigates extended inductive reasoning in LLMs through the lens of personalized preference inference, a critical challenge in LLM alignment where current approaches struggle to capture diverse user preferences. The task demands strong inductive reasoning capabilities as user preferences are typically embedded implicitly across various interaction forms, requiring models to synthesize consistent preference patterns from scattered signals. We propose \textsc{AlignXplore}, a model that leverages extended reasoning chains to enable systematic preference inference from behavioral signals in users’ interaction histories. We develop \textsc{AlignXplore} by combining cold-start training based on synthetic data with subsequent online reinforcement learning. Through extensive experiments, we demonstrate that \textsc{AlignXplore} achieves substantial improvements over the backbone model by an average of 11.05\% on in-domain and out-of-domain benchmarks, while maintaining strong generalization ability across different input formats and downstream models. Further analyses establish best practices for preference inference learning through systematic comparison of reward modeling strategies, while revealing the emergence of human-like inductive reasoning patterns during training.

arxiv情報

著者 Jia-Nan Li,Jian Guan,Wei Wu,Rui Yan
発行日 2025-05-23 16:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Extended Inductive Reasoning for Personalized Preference Inference from Behavioral Signals はコメントを受け付けていません