Programming Refusal with Conditional Activation Steering

要約

LLMは顕著な能力を示していますが、反応行動を正確に制御することは依然として困難です。
既存のアクティベーションステアリング方法は、LLMの動作を無差別に変化させ、コンテンツモデレーションやドメイン固有のアシスタントなど、選択的な応答が不可欠な設定での実際的な適用性を制限します。
このホワイトペーパーでは、条件付きアクティベーションステアリング(CAST)を提案します。これは、推論中にLLMアクティベーションパターンを分析し、入力コンテキストに基づいてアクティベーションステアリングを選択的に適用または源泉徴収します。
私たちの方法は、さまざまなカテゴリのプロンプトがモデルの非表示状態で異なるパターンをアクティブにするという観察に基づいています。
キャストを使用すると、「入力がヘイトスピーチやアダルトコンテンツに関するものである場合、拒否」または「入力が法的アドバイスに関するものではない場合は拒否」などのルールでLLMの動作を体系的に制御できます。
これにより、他のコンテンツに対する通常の応答を維持しながら、特定のコンテンツに対する応答を選択的に変更できます。
でフレームワークのオープンソース実装をリリースします。

要約(オリジナル)

LLMs have shown remarkable capabilities, but precisely controlling their response behavior remains challenging. Existing activation steering methods alter LLM behavior indiscriminately, limiting their practical applicability in settings where selective responses are essential, such as content moderation or domain-specific assistants. In this paper, we propose Conditional Activation Steering (CAST), which analyzes LLM activation patterns during inference to selectively apply or withhold activation steering based on the input context. Our method is based on the observation that different categories of prompts activate distinct patterns in the model’s hidden states. Using CAST, one can systematically control LLM behavior with rules like ‘if input is about hate speech or adult content, then refuse’ or ‘if input is not about legal advice, then refuse.’ This allows for selective modification of responses to specific content while maintaining normal responses to other content, all without requiring weight optimization. We release an open-source implementation of our framework at .

arxiv情報

著者 Bruce W. Lee,Inkit Padhi,Karthikeyan Natesan Ramamurthy,Erik Miehling,Pierre Dognin,Manish Nagireddy,Amit Dhurandhar
発行日 2025-02-11 16:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Programming Refusal with Conditional Activation Steering はコメントを受け付けていません

Revisiting the Initial Steps in Adaptive Gradient Descent Optimization

要約

Adamなどの適応勾配最適化方法は、より速い収束を達成する能力により、多様な機械学習タスク全体で深いニューラルネットワークをトレーニングするのに普及しています。
ただし、これらの方法は、特にトレーニングトランスモデルの場合、確率勾配降下(SGD)と比較して、最適ではない一般化に悩まされることがよくあります。
この作業では、これらの制限に寄与する重要な要因として、2次モーメント推定($ v_0 = 0 $)の標準的な初期化を示します。
シンプルで効果的なソリューションを紹介します。データ駆動型またはランダムな初期化戦略を使用して、ゼロ以外の値で2次モーメント推定を初期化します。
経験的評価は、私たちのアプローチが収束を安定させるだけでなく、適応勾配オプティマイザーの最終的なパフォーマンスを向上させることを示しています。
さらに、提案された初期化戦略を採用することにより、Adamは、適応勾配最適化方法の最近提案された多くのバリエーションに匹敵するパフォーマンスを達成します。
私たちのコードは、https://github.com/walleclipse/adam_initializationで入手できます。

要約(オリジナル)

Adaptive gradient optimization methods, such as Adam, are prevalent in training deep neural networks across diverse machine learning tasks due to their ability to achieve faster convergence. However, these methods often suffer from suboptimal generalization compared to stochastic gradient descent (SGD) and exhibit instability, particularly when training Transformer models. In this work, we show the standard initialization of the second-order moment estimation ($v_0 =0$) as a significant factor contributing to these limitations. We introduce simple yet effective solutions: initializing the second-order moment estimation with non-zero values, using either data-driven or random initialization strategies. Empirical evaluations demonstrate that our approach not only stabilizes convergence but also enhances the final performance of adaptive gradient optimizers. Furthermore, by adopting the proposed initialization strategies, Adam achieves performance comparable to many recently proposed variants of adaptive gradient optimization methods. Our code is available at https://github.com/Walleclipse/Adam_Initialization.

arxiv情報

著者 Abulikemu Abuduweili,Changliu Liu
発行日 2025-02-11 16:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Revisiting the Initial Steps in Adaptive Gradient Descent Optimization はコメントを受け付けていません

Learning from Demonstration with Implicit Nonlinear Dynamics Models

要約

デモンストレーション(LFD)から学ぶことは、ロボット操作で遭遇するような複雑な動きを含むタスクを解決するトレーニングポリシーのための有用なパラダイムです。
実際には、LFDの適用が成功するには、ポリシーの実行中のエラーの蓄積を克服する必要があります。つまり、エラーが長期にわたって悪化したためのドリフトの問題と、その結果としての分散除外行動が必要です。
既存の作業は、データ収集のスケーリング、ループの人間でポリシーエラーを修正し、ポリシー予測を一時的にアンサンミングすること、または収束保証付きの動的システムモデルを学習することにより、この問題に対処しようとしています。
この作業では、この問題を克服するための代替アプローチを提案および検証します。
リザーバーコンピューティングに触発されて、時間的ダイナミクスをモデリングするための調整可能な動的特性を備えた固定非線形動力システムを含む再発性ニューラルネットワーク層を開発します。
LASAヒトの手書きデータセットを使用して、人間の手書きの動きを再現するタスクに対するニューラルネットワーク層の有効性を検証します。
経験的実験を通じて、既存のニューラルネットワークアーキテクチャに層を組み込むことは、LFDの複合エラーの問題に対処することを実証します。
さらに、ポリシー予測の時間的アンサンブルやエコー状態ネットワーク(ESN)の実装など、既存のアプローチに対する比較評価を実行します。
私たちのアプローチは、複数のダイナミクス体制に一般化し、競争力のある遅延スコアを維持しながら、手書きのタスクに対するより大きなポリシーの精度と堅牢性をもたらすことがわかります。

要約(オリジナル)

Learning from Demonstration (LfD) is a useful paradigm for training policies that solve tasks involving complex motions, such as those encountered in robotic manipulation. In practice, the successful application of LfD requires overcoming error accumulation during policy execution, i.e. the problem of drift due to errors compounding over time and the consequent out-of-distribution behaviours. Existing works seek to address this problem through scaling data collection, correcting policy errors with a human-in-the-loop, temporally ensembling policy predictions or through learning a dynamical system model with convergence guarantees. In this work, we propose and validate an alternative approach to overcoming this issue. Inspired by reservoir computing, we develop a recurrent neural network layer that includes a fixed nonlinear dynamical system with tunable dynamical properties for modelling temporal dynamics. We validate the efficacy of our neural network layer on the task of reproducing human handwriting motions using the LASA Human Handwriting Dataset. Through empirical experiments we demonstrate that incorporating our layer into existing neural network architectures addresses the issue of compounding errors in LfD. Furthermore, we perform a comparative evaluation against existing approaches including a temporal ensemble of policy predictions and an Echo State Network (ESN) implementation. We find that our approach yields greater policy precision and robustness on the handwriting task while also generalising to multiple dynamics regimes and maintaining competitive latency scores.

arxiv情報

著者 Peter David Fagan,Subramanian Ramamoorthy
発行日 2025-02-11 16:24:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY, I.2 | Learning from Demonstration with Implicit Nonlinear Dynamics Models はコメントを受け付けていません

Paying to Do Better: Games with Payments between Learning Agents

要約

オークションなどの繰り返しのゲームでは、プレイヤーは通常、学習アルゴリズムを使用してアクションを選択します。
このような自律学習エージェントの使用は、オンラインプラットフォームで広まっています。
この論文では、エージェント間のダイナミクスを通じて彼らの好意に影響を与えることを目的とした、金融移転政策をエージェントのアルゴリズムに組み込むプレイヤーの影響を探ります。
私たちの焦点は、プレイヤーが金銭的転送を利用するインセンティブを持っていること、そのような支払いが学習ダイナミクスにどのように影響するか、そしてプレーヤー間の福祉とその分布にどのような影響を与えるかを理解することです。
このようなシナリオをキャプチャするために、シンプルで一般的なゲーム理論モデルを提案します。
一般的なゲームでの私たちの結果は、非常に幅広いゲームのゲームで、自己利益のプレイヤーがゲームのダイナミクス中に学習エージェントに他の学習者に支払いをさせることで利益を得ており、多くの場合、この種の行動はすべてのプレイヤーの福祉を改善することを示しています。

1枚目と2番目のオークションに関する私たちの結果は、「支払いポリシーゲーム」の平衡において、エージェントのダイナミクスが競売人の収益が低い強力な協力的な結果に達することを示しています。
これらの結果は、新しい質問を提起し、自動化された学習エージェントがデジタルエコシステムやメカニズムの境界の外側との対話から利益を得ることができるシステムのメカニズム設計の課題を強調しています。

要約(オリジナル)

In repeated games, such as auctions, players typically use learning algorithms to choose their actions. The use of such autonomous learning agents has become widespread on online platforms. In this paper, we explore the impact of players incorporating monetary transfer policies into their agents’ algorithms, aiming to influence behavior in their favor through the dynamics between the agents. Our focus is on understanding when players have incentives to make use of monetary transfers, how such payments may affect learning dynamics, and what the implications are for welfare and its distribution among the players. We propose a simple and general game-theoretic model to capture such scenarios. Our results on general games show that in a very broad class of games, self-interested players benefit from letting their learning agents make payments to other learners during the game dynamics, and that in many cases, this kind of behavior improves welfare for all players. Our results on first- and second-price auctions show that in equilibria of the “payment policy game,” the agents’ dynamics reach strong collusive outcomes with low revenue for the auctioneer. These results raise new questions and highlight a challenge for mechanism design in systems where automated learning agents can benefit from interacting with their peers in the digital ecosystem and outside the boundaries of the mechanism.

arxiv情報

著者 Yoav Kolumbus,Joe Halpern,Éva Tardos
発行日 2025-02-11 16:29:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 91A05, 91A06, 91A10, 91A20, 91A40, 91A80, cs.AI, cs.GT, cs.MA, econ.TH, I.2 | Paying to Do Better: Games with Payments between Learning Agents はコメントを受け付けていません

Evaluating Evidence Attribution in Generated Fact Checking Explanations

要約

自動化されたファクトチェックシステムは、生成された説明には幻覚が含まれる可能性があるため、しばしば信頼性と格闘しています。
この作業では、事実確認の説明生成に関する証拠の帰属を探ります。
生成された説明の帰属品質を評価するために、新しい評価プロトコル(引用マスキングと回復)を紹介します。
ヒトアノテーターと自動アノテーターの両方を使用してプロトコルを実装し、LLMアノテーションがヒトアノテーションと相関していることを発見し、帰属評価を自動化できることを示唆しています。
最後に、私たちの実験は、次のことが明らかになりました。(1)最高のパフォーマンスのLLMは、不正確な帰属で説明を生成します。
(2)より良い説明を生成するには、人間がキュレーションした証拠が不可欠です。
コードとデータは、https://github.com/ruixing76/transparent-fcexpで入手できます。

要約(オリジナル)

Automated fact-checking systems often struggle with trustworthiness, as their generated explanations can include hallucinations. In this work, we explore evidence attribution for fact-checking explanation generation. We introduce a novel evaluation protocol — citation masking and recovery — to assess attribution quality in generated explanations. We implement our protocol using both human annotators and automatic annotators, and find that LLM annotation correlates with human annotation, suggesting that attribution assessment can be automated. Finally, our experiments reveal that: (1) the best-performing LLMs still generate explanations with inaccurate attributions; and (2) human-curated evidence is essential for generating better explanations. Code and data are available here: https://github.com/ruixing76/Transparent-FCExp.

arxiv情報

著者 Rui Xing,Timothy Baldwin,Jey Han Lau
発行日 2025-02-11 16:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Evaluating Evidence Attribution in Generated Fact Checking Explanations はコメントを受け付けていません

A statistically consistent measure of Semantic Variability using Language Models

要約

言語モデルによって生成される出力の変動性の問題に対処するために、軽度の仮定の下で統計的に一貫しているセマンティック変動の尺度を提示します。
セマンティックスペクトルエントロピーとして示されるこの尺度は、棚言語モデルのすぐそばに必要な簡単に実装できるアルゴリズムです。
言語モデルにはほとんど制限がありません。明確なシミュレーション研究では、言語モデルから生じるランダム性にもかかわらず、そのような方法が正確なメトリックを生成できることを示しました。

要約(オリジナル)

To address the issue of variability in the output generated by a language model, we present a measure of semantic variability that is statistically consistent under mild assumptions. This measure, denoted as semantic spectral entropy, is a easy to implement algorithm that requires just off the shelf language models. We put very few restrictions on the language models and we have shown in a clear simulation studies that such method can generate accurate metric despite randomness that arise from the language models.

arxiv情報

著者 Yi Liu
発行日 2025-02-11 16:39:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A statistically consistent measure of Semantic Variability using Language Models はコメントを受け付けていません

SoK: A Classification for AI-driven Personalized Privacy Assistants

要約

ユーザーがプライバシー関連の意思決定を行うのを支援するために、AIテクノロジーに基づいたパーソナライズされたプライバシーアシスタントが近年開発されています。
これらのAI駆動型のパーソナライズされたプライバシーアシスタント(AI主導のPPA)は、プライバシー関連の決定要求に満ちた環境での個人データに関する決定を下すのに苦労する可能性があります。
ただし、これらのAI駆動型PPAの特徴、その基礎となる技術、またはその決定の正確性について体系的に調査する研究はありませんでした。
このギャップを埋めるために、科学文献にある既存のソリューションをマッピングするために、知識(SOK)の体系化を提示します。
過去10年間(2013-2023)に1697年のユニークな研究論文を上映し、39の含まれる論文から分類を構築しました。
その結果、このSOKは、出版物の種類、貢献、方法論の質、およびその他の定量的洞察の観点から、AI主導のPPAに関する既存の研究のいくつかの側面をレビューします。
さらに、AI駆動型PPAの包括的な分類を提供し、建築の選択、システムのコンテキスト、使用済みのAIの種類、データソース、決定の種類、意思決定の制御などを掘り下げます。
SOKに基づいて、研究のギャップと課題をさらに強調し、AI主導のPPAの設計と開発に関する推奨事項と、将来の研究の道を策定します。

要約(オリジナル)

To help users make privacy-related decisions, personalized privacy assistants based on AI technology have been developed in recent years. These AI-driven Personalized Privacy Assistants (AI-driven PPAs) can reap significant benefits for users, who may otherwise struggle to make decisions regarding their personal data in environments saturated with privacy-related decision requests. However, no study systematically inquired about the features of these AI-driven PPAs, their underlying technologies, or the accuracy of their decisions. To fill this gap, we present a Systematization of Knowledge (SoK) to map the existing solutions found in the scientific literature. We screened 1697 unique research papers over the last decade (2013-2023), constructing a classification from 39 included papers. As a result, this SoK reviews several aspects of existing research on AI-driven PPAs in terms of types of publications, contributions, methodological quality, and other quantitative insights. Furthermore, we provide a comprehensive classification for AI-driven PPAs, delving into their architectural choices, system contexts, types of AI used, data sources, types of decisions, and control over decisions, among other facets. Based on our SoK, we further underline the research gaps and challenges and formulate recommendations for the design and development of AI-driven PPAs as well as avenues for future research.

arxiv情報

著者 Victor Morel,Leonardo Iwaya,Simone Fischer-Hübner
発行日 2025-02-11 16:46:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | SoK: A Classification for AI-driven Personalized Privacy Assistants はコメントを受け付けていません

Amuro and Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models

要約

大規模な言語モデルの開発は、プリトレイントレインアライインパラダイムの形成につながります。このパラダイムでは、モデルは通常、大きなテキストコーパスで事前に訓練され、モデルを人間の好みまたは下流タスクに合わせてチューニング段階を導きます。

この作業では、複数の中間訓練を受けたモデルチェックポイントを微調整することにより、トレーニング前と微調整の関係を調査します。
18のデータセットでの結果は、i)継続的なトレーニングがモデルを微調整後に発表する潜在的な方法でモデルを改善することを示唆しています。
ii)余分な微調整により、モデルが能力を実証していないデータセットは、トレーニング前の段階でモデルがうまく機能するものよりもはるかに多く獲得します。
iii)モデルは監視された微調整を通じて大幅に利益をもたらしますが、以前に知られているドメインの知識と微調整中に見られないタスクを忘れるかもしれません。
iv)このモデルは、監視された微調整後の評価プロンプトに対する高い感度に似ていますが、この感度はより多くのトレーニングによって緩和される可能性があります。

要約(オリジナル)

The development of large language models leads to the formation of a pre-train-then-align paradigm, in which the model is typically pre-trained on a large text corpus and undergoes a tuning stage to align the model with human preference or downstream tasks. In this work, we investigate the relationship between pre-training and fine-tuning by fine-tuning multiple intermediate pre-trained model checkpoints. Our results on 18 datasets suggest that i) continual pre-training improves the model in a latent way that unveils after fine-tuning; ii) with extra fine-tuning, the datasets that the model does not demonstrate capability gain much more than those that the model performs well during the pre-training stage; iii) although model benefits significantly through supervised fine-tuning, it may forget previously known domain knowledge and the tasks that are not seen during fine-tuning; iv) the model resembles high sensitivity to evaluation prompts after supervised fine-tuning, but this sensitivity can be alleviated by more pre-training.

arxiv情報

著者 Kaiser Sun,Mark Dredze
発行日 2025-02-11 16:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Amuro and Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models はコメントを受け付けていません

(Ir)rationality in AI: State of the Art, Research Challenges and Open Questions

要約

合理性の概念は、人工知能の分野の中心です。
私たちが人間の推論をシミュレートしようとしているのか、目標が境界のある最適性を達成することであるかどうかにかかわらず、一般に、人工薬を可能な限り合理的にすることを目指しています。
AI内の概念の中心性にもかかわらず、合理的なエージェントを構成するものの統一された定義はありません。
この記事では、人工知能における合理性と不合理性の調査を提供し、この分野の未解決の質問を示しています。
他の分野における合理性の理解は、人工知能、特に経済学、哲学、心理学の仕事におけるその概念に影響を与えています。
人工剤の行動に焦点を当てて、特定のシナリオで最適であることが証明できる不合理な行動を検討します。
識別と相互作用の両方の観点から、不合理な薬剤を扱うためのいくつかの方法が開発されていますが、この分野での作業は限られたままです。
これまで他の目的のために開発された方法、すなわち敵対的なシナリオは、人工剤との相互作用に合わせて調整される可能性があります。
さらに、人間と人工のエージェントの相互作用、およびこの相互作用の中で合理性が果たす役割について説明します。
この分野には多くの質問が残っており、人間と人工剤の両方の潜在的に不合理な行動に関連しています。

要約(オリジナル)

The concept of rationality is central to the field of artificial intelligence. Whether we are seeking to simulate human reasoning, or the goal is to achieve bounded optimality, we generally seek to make artificial agents as rational as possible. Despite the centrality of the concept within AI, there is no unified definition of what constitutes a rational agent. This article provides a survey of rationality and irrationality in artificial intelligence, and sets out the open questions in this area. The understanding of rationality in other fields has influenced its conception within artificial intelligence, in particular work in economics, philosophy and psychology. Focusing on the behaviour of artificial agents, we consider irrational behaviours that can prove to be optimal in certain scenarios. Some methods have been developed to deal with irrational agents, both in terms of identification and interaction, however work in this area remains limited. Methods that have up to now been developed for other purposes, namely adversarial scenarios, may be adapted to suit interactions with artificial agents. We further discuss the interplay between human and artificial agents, and the role that rationality plays within this interaction; many questions remain in this area, relating to potentially irrational behaviour of both humans and artificial agents.

arxiv情報

著者 Olivia Macmillan-Scott,Mirco Musolesi
発行日 2025-02-11 17:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, cs.LG, cs.MA | (Ir)rationality in AI: State of the Art, Research Challenges and Open Questions はコメントを受け付けていません

MAGELLAN: Metacognitive predictions of learning progress guide autotelic LLM agents in large goal spaces

要約

オープンエンドの学習エージェントは、学習進捗(LP)を最大化するものに焦点を当てて、広大な可能性スペースで目標を効率的に優先順位付けする必要があります。
このような自己テリック探査が、高次元および進化する目標スペースでオンラインRLで訓練されたLLMエージェントによって達成される場合、LP予測の重要な課題は、自分自身の能力、メタ認知的監視の一形態をモデル化することです。
従来のアプローチでは、広範なサンプリングが必要なか、脆弱な専門家が定義した目標グループに依存しています。
LLMエージェントが能力とLPをオンラインで予測することを学ぶことができるメタ認知フレームワークであるMagellanを紹介します。
目標間のセマンティックな関係をキャプチャすることにより、マゼランは、サンプル効率の高いLP推定と、一般化を通じて進化する目標スペースへの動的な適応を可能にします。
インタラクティブな学習環境では、マゼランがLP予測効率と目標優先順位付けを改善し、エージェントが大きく進化する目標スペースを完全にマスターできるようにする唯一の方法であることを示しています。
これらの結果は、LP予測のメタ認知能力でLLMエージェントを増強することで、カリキュラムの学習をオープンエンドの目標スペースに効果的に拡大する方法を示しています。

要約(オリジナル)

Open-ended learning agents must efficiently prioritize goals in vast possibility spaces, focusing on those that maximize learning progress (LP). When such autotelic exploration is achieved by LLM agents trained with online RL in high-dimensional and evolving goal spaces, a key challenge for LP prediction is modeling one’s own competence, a form of metacognitive monitoring. Traditional approaches either require extensive sampling or rely on brittle expert-defined goal groupings. We introduce MAGELLAN, a metacognitive framework that lets LLM agents learn to predict their competence and LP online. By capturing semantic relationships between goals, MAGELLAN enables sample-efficient LP estimation and dynamic adaptation to evolving goal spaces through generalization. In an interactive learning environment, we show that MAGELLAN improves LP prediction efficiency and goal prioritization, being the only method allowing the agent to fully master a large and evolving goal space. These results demonstrate how augmenting LLM agents with a metacognitive ability for LP predictions can effectively scale curriculum learning to open-ended goal spaces.

arxiv情報

著者 Loris Gaven,Thomas Carta,Clément Romac,Cédric Colas,Sylvain Lamprier,Olivier Sigaud,Pierre-Yves Oudeyer
発行日 2025-02-11 17:08:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MAGELLAN: Metacognitive predictions of learning progress guide autotelic LLM agents in large goal spaces はコメントを受け付けていません