Human Decision-making is Susceptible to AI-driven Manipulation

要約

人工知能(AI)システムは、日常生活とますます絡み合っており、ユーザーがさまざまなタスクを実行し、意思決定に関するガイダンスを提供するのを支援しています。
この統合は、AI駆動型の操作のリスクをもたらします。このようなシステムは、ユーザーの認知バイアスと感情的な脆弱性を悪用して、有害な結果に向かって誘導する可能性があります。
233人の参加者とのランダム化比較試験を通じて、財務(例:購入)および感情的な(紛争解決など)意思決定コンテキストでのそのような操作に対する人間の感受性を調べました。
参加者は、3つのAIエージェントのいずれかと相互作用しました:明示的な影響なしにユーザーの利益を最適化する中立エージェント(NA)、信念と行動にひどく影響するように設計された操作エージェント(MA)、または明示的な心理学を採用する戦略強化操作エージェント(SEMA)
その隠れた目的に到達する戦術。
参加者の決定パターンと相互作用後の好みの評価のシフトを分析することにより、AI駆動型の操作に対する著しい感受性を発見しました。
特に、両方の意思決定ドメインで、操作剤と対話する参加者は、実質的に高いレートで有害なオプションにシフトしました(金融、MA:62.3%、SEMA:59.6%;感情、MA:42.3%、SEMA:41.5%)
NAグループ(金融、35.8%、感情、12.8%)。
特に、我々の調査結果は、微妙な操作目的(MA)でさえ、人間の意思決定を揺るがす際に明示的な心理的戦略(SEMA)を採用するのと同じくらい効果的であることが明らかになっています。
秘密のAIの影響の可能性を明らかにすることにより、この研究は、人間との相互作用の重大な脆弱性を強調し、AI技術の責任ある展開を確保し、人間の自律性を保護するために倫理的保護と規制の枠組みの必要性を強調します。

要約(オリジナル)

Artificial Intelligence (AI) systems are increasingly intertwined with daily life, assisting users in executing various tasks and providing guidance on decision-making. This integration introduces risks of AI-driven manipulation, where such systems may exploit users’ cognitive biases and emotional vulnerabilities to steer them toward harmful outcomes. Through a randomized controlled trial with 233 participants, we examined human susceptibility to such manipulation in financial (e.g., purchases) and emotional (e.g., conflict resolution) decision-making contexts. Participants interacted with one of three AI agents: a neutral agent (NA) optimizing for user benefit without explicit influence, a manipulative agent (MA) designed to covertly influence beliefs and behaviors, or a strategy-enhanced manipulative agent (SEMA) employing explicit psychological tactics to reach its hidden objectives. By analyzing participants’ decision patterns and shifts in their preference ratings post-interaction, we found significant susceptibility to AI-driven manipulation. Particularly, across both decision-making domains, participants interacting with the manipulative agents shifted toward harmful options at substantially higher rates (financial, MA: 62.3%, SEMA: 59.6%; emotional, MA: 42.3%, SEMA: 41.5%) compared to the NA group (financial, 35.8%; emotional, 12.8%). Notably, our findings reveal that even subtle manipulative objectives (MA) can be as effective as employing explicit psychological strategies (SEMA) in swaying human decision-making. By revealing the potential for covert AI influence, this study highlights a critical vulnerability in human-AI interactions, emphasizing the need for ethical safeguards and regulatory frameworks to ensure responsible deployment of AI technologies and protect human autonomy.

arxiv情報

著者 Sahand Sabour,June M. Liu,Siyang Liu,Chris Z. Yao,Shiyao Cui,Xuanming Zhang,Wen Zhang,Yaru Cao,Advait Bhat,Jian Guan,Wei Wu,Rada Mihalcea,Tim Althoff,Tatia M. C. Lee,Minlie Huang
発行日 2025-02-11 15:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC | Human Decision-making is Susceptible to AI-driven Manipulation はコメントを受け付けていません

Language Models Largely Exhibit Human-like Constituent Ordering Preferences

要約

英語の文章は通常、柔軟性のないものですが、\ `a-visの語順ですが、構成要素はしばしば注文においてはるかに多くのばらつきを示します。
1つの顕著な理論は、構成要素の秩序化は構成重量、つまり構成要素の長さまたは複雑さの尺度と直接相関するという概念を示しています。
NLPの最近の進歩は大規模な言語モデル(LLM)のパフォーマンスに大幅な利益をもたらしているが、これらのモデルがどのように言語を処理するか、そしてこれがどのようにこれを処理するかについては不明のままであるため、このような理論は自然言語処理(NLP)のコンテキストで興味深いものです。
人間の言語処理と比較します。
特に、LLMが構成要素の動きを持つ同じパターンを表示するかどうかという問題は、人間の言語でのシフトがいつ、どのように発生するかについての既存の理論に関する洞察を提供する可能性があります。
さまざまなLLMを多様な特性と比較して、4種類の構成要素の動きで広範なLLMパフォーマンスを評価します。
粒子の動きを予期せずに実行しているにもかかわらず、LLMは一般に、構成要素の順序に関する人間の好みと一致します。

要約(オリジナル)

Though English sentences are typically inflexible vis-\`a-vis word order, constituents often show far more variability in ordering. One prominent theory presents the notion that constituent ordering is directly correlated with constituent weight: a measure of the constituent’s length or complexity. Such theories are interesting in the context of natural language processing (NLP), because while recent advances in NLP have led to significant gains in the performance of large language models (LLMs), much remains unclear about how these models process language, and how this compares to human language processing. In particular, the question remains whether LLMs display the same patterns with constituent movement, and may provide insights into existing theories on when and how the shift occurs in human language. We compare a variety of LLMs with diverse properties to evaluate broad LLM performance on four types of constituent movement: heavy NP shift, particle movement, dative alternation, and multiple PPs. Despite performing unexpectedly around particle movement, LLMs generally align with human preferences around constituent ordering.

arxiv情報

著者 Ada Defne Tur,Gaurav Kamath,Siva Reddy
発行日 2025-02-11 16:02:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Language Models Largely Exhibit Human-like Constituent Ordering Preferences はコメントを受け付けていません

Programming Refusal with Conditional Activation Steering

要約

LLMは顕著な能力を示していますが、反応行動を正確に制御することは依然として困難です。
既存のアクティベーションステアリング方法は、LLMの動作を無差別に変化させ、コンテンツモデレーションやドメイン固有のアシスタントなど、選択的な応答が不可欠な設定での実際的な適用性を制限します。
このホワイトペーパーでは、条件付きアクティベーションステアリング(CAST)を提案します。これは、推論中にLLMアクティベーションパターンを分析し、入力コンテキストに基づいてアクティベーションステアリングを選択的に適用または源泉徴収します。
私たちの方法は、さまざまなカテゴリのプロンプトがモデルの非表示状態で異なるパターンをアクティブにするという観察に基づいています。
キャストを使用すると、「入力がヘイトスピーチやアダルトコンテンツに関するものである場合、拒否」または「入力が法的アドバイスに関するものではない場合は拒否」などのルールでLLMの動作を体系的に制御できます。
これにより、他のコンテンツに対する通常の応答を維持しながら、特定のコンテンツに対する応答を選択的に変更できます。
でフレームワークのオープンソース実装をリリースします。

要約(オリジナル)

LLMs have shown remarkable capabilities, but precisely controlling their response behavior remains challenging. Existing activation steering methods alter LLM behavior indiscriminately, limiting their practical applicability in settings where selective responses are essential, such as content moderation or domain-specific assistants. In this paper, we propose Conditional Activation Steering (CAST), which analyzes LLM activation patterns during inference to selectively apply or withhold activation steering based on the input context. Our method is based on the observation that different categories of prompts activate distinct patterns in the model’s hidden states. Using CAST, one can systematically control LLM behavior with rules like ‘if input is about hate speech or adult content, then refuse’ or ‘if input is not about legal advice, then refuse.’ This allows for selective modification of responses to specific content while maintaining normal responses to other content, all without requiring weight optimization. We release an open-source implementation of our framework at .

arxiv情報

著者 Bruce W. Lee,Inkit Padhi,Karthikeyan Natesan Ramamurthy,Erik Miehling,Pierre Dognin,Manish Nagireddy,Amit Dhurandhar
発行日 2025-02-11 16:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Programming Refusal with Conditional Activation Steering はコメントを受け付けていません

Revisiting the Initial Steps in Adaptive Gradient Descent Optimization

要約

Adamなどの適応勾配最適化方法は、より速い収束を達成する能力により、多様な機械学習タスク全体で深いニューラルネットワークをトレーニングするのに普及しています。
ただし、これらの方法は、特にトレーニングトランスモデルの場合、確率勾配降下(SGD)と比較して、最適ではない一般化に悩まされることがよくあります。
この作業では、これらの制限に寄与する重要な要因として、2次モーメント推定($ v_0 = 0 $)の標準的な初期化を示します。
シンプルで効果的なソリューションを紹介します。データ駆動型またはランダムな初期化戦略を使用して、ゼロ以外の値で2次モーメント推定を初期化します。
経験的評価は、私たちのアプローチが収束を安定させるだけでなく、適応勾配オプティマイザーの最終的なパフォーマンスを向上させることを示しています。
さらに、提案された初期化戦略を採用することにより、Adamは、適応勾配最適化方法の最近提案された多くのバリエーションに匹敵するパフォーマンスを達成します。
私たちのコードは、https://github.com/walleclipse/adam_initializationで入手できます。

要約(オリジナル)

Adaptive gradient optimization methods, such as Adam, are prevalent in training deep neural networks across diverse machine learning tasks due to their ability to achieve faster convergence. However, these methods often suffer from suboptimal generalization compared to stochastic gradient descent (SGD) and exhibit instability, particularly when training Transformer models. In this work, we show the standard initialization of the second-order moment estimation ($v_0 =0$) as a significant factor contributing to these limitations. We introduce simple yet effective solutions: initializing the second-order moment estimation with non-zero values, using either data-driven or random initialization strategies. Empirical evaluations demonstrate that our approach not only stabilizes convergence but also enhances the final performance of adaptive gradient optimizers. Furthermore, by adopting the proposed initialization strategies, Adam achieves performance comparable to many recently proposed variants of adaptive gradient optimization methods. Our code is available at https://github.com/Walleclipse/Adam_Initialization.

arxiv情報

著者 Abulikemu Abuduweili,Changliu Liu
発行日 2025-02-11 16:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Revisiting the Initial Steps in Adaptive Gradient Descent Optimization はコメントを受け付けていません

Learning from Demonstration with Implicit Nonlinear Dynamics Models

要約

デモンストレーション(LFD)から学ぶことは、ロボット操作で遭遇するような複雑な動きを含むタスクを解決するトレーニングポリシーのための有用なパラダイムです。
実際には、LFDの適用が成功するには、ポリシーの実行中のエラーの蓄積を克服する必要があります。つまり、エラーが長期にわたって悪化したためのドリフトの問題と、その結果としての分散除外行動が必要です。
既存の作業は、データ収集のスケーリング、ループの人間でポリシーエラーを修正し、ポリシー予測を一時的にアンサンミングすること、または収束保証付きの動的システムモデルを学習することにより、この問題に対処しようとしています。
この作業では、この問題を克服するための代替アプローチを提案および検証します。
リザーバーコンピューティングに触発されて、時間的ダイナミクスをモデリングするための調整可能な動的特性を備えた固定非線形動力システムを含む再発性ニューラルネットワーク層を開発します。
LASAヒトの手書きデータセットを使用して、人間の手書きの動きを再現するタスクに対するニューラルネットワーク層の有効性を検証します。
経験的実験を通じて、既存のニューラルネットワークアーキテクチャに層を組み込むことは、LFDの複合エラーの問題に対処することを実証します。
さらに、ポリシー予測の時間的アンサンブルやエコー状態ネットワーク(ESN)の実装など、既存のアプローチに対する比較評価を実行します。
私たちのアプローチは、複数のダイナミクス体制に一般化し、競争力のある遅延スコアを維持しながら、手書きのタスクに対するより大きなポリシーの精度と堅牢性をもたらすことがわかります。

要約(オリジナル)

Learning from Demonstration (LfD) is a useful paradigm for training policies that solve tasks involving complex motions, such as those encountered in robotic manipulation. In practice, the successful application of LfD requires overcoming error accumulation during policy execution, i.e. the problem of drift due to errors compounding over time and the consequent out-of-distribution behaviours. Existing works seek to address this problem through scaling data collection, correcting policy errors with a human-in-the-loop, temporally ensembling policy predictions or through learning a dynamical system model with convergence guarantees. In this work, we propose and validate an alternative approach to overcoming this issue. Inspired by reservoir computing, we develop a recurrent neural network layer that includes a fixed nonlinear dynamical system with tunable dynamical properties for modelling temporal dynamics. We validate the efficacy of our neural network layer on the task of reproducing human handwriting motions using the LASA Human Handwriting Dataset. Through empirical experiments we demonstrate that incorporating our layer into existing neural network architectures addresses the issue of compounding errors in LfD. Furthermore, we perform a comparative evaluation against existing approaches including a temporal ensemble of policy predictions and an Echo State Network (ESN) implementation. We find that our approach yields greater policy precision and robustness on the handwriting task while also generalising to multiple dynamics regimes and maintaining competitive latency scores.

arxiv情報

著者 Peter David Fagan,Subramanian Ramamoorthy
発行日 2025-02-11 16:24:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY, I.2 | Learning from Demonstration with Implicit Nonlinear Dynamics Models はコメントを受け付けていません

Paying to Do Better: Games with Payments between Learning Agents

要約

オークションなどの繰り返しのゲームでは、プレイヤーは通常、学習アルゴリズムを使用してアクションを選択します。
このような自律学習エージェントの使用は、オンラインプラットフォームで広まっています。
この論文では、エージェント間のダイナミクスを通じて彼らの好意に影響を与えることを目的とした、金融移転政策をエージェントのアルゴリズムに組み込むプレイヤーの影響を探ります。
私たちの焦点は、プレイヤーが金銭的転送を利用するインセンティブを持っていること、そのような支払いが学習ダイナミクスにどのように影響するか、そしてプレーヤー間の福祉とその分布にどのような影響を与えるかを理解することです。
このようなシナリオをキャプチャするために、シンプルで一般的なゲーム理論モデルを提案します。
一般的なゲームでの私たちの結果は、非常に幅広いゲームのゲームで、自己利益のプレイヤーがゲームのダイナミクス中に学習エージェントに他の学習者に支払いをさせることで利益を得ており、多くの場合、この種の行動はすべてのプレイヤーの福祉を改善することを示しています。

1枚目と2番目のオークションに関する私たちの結果は、「支払いポリシーゲーム」の平衡において、エージェントのダイナミクスが競売人の収益が低い強力な協力的な結果に達することを示しています。
これらの結果は、新しい質問を提起し、自動化された学習エージェントがデジタルエコシステムやメカニズムの境界の外側との対話から利益を得ることができるシステムのメカニズム設計の課題を強調しています。

要約(オリジナル)

In repeated games, such as auctions, players typically use learning algorithms to choose their actions. The use of such autonomous learning agents has become widespread on online platforms. In this paper, we explore the impact of players incorporating monetary transfer policies into their agents’ algorithms, aiming to influence behavior in their favor through the dynamics between the agents. Our focus is on understanding when players have incentives to make use of monetary transfers, how such payments may affect learning dynamics, and what the implications are for welfare and its distribution among the players. We propose a simple and general game-theoretic model to capture such scenarios. Our results on general games show that in a very broad class of games, self-interested players benefit from letting their learning agents make payments to other learners during the game dynamics, and that in many cases, this kind of behavior improves welfare for all players. Our results on first- and second-price auctions show that in equilibria of the “payment policy game,” the agents’ dynamics reach strong collusive outcomes with low revenue for the auctioneer. These results raise new questions and highlight a challenge for mechanism design in systems where automated learning agents can benefit from interacting with their peers in the digital ecosystem and outside the boundaries of the mechanism.

arxiv情報

著者 Yoav Kolumbus,Joe Halpern,Éva Tardos
発行日 2025-02-11 16:29:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 91A05, 91A06, 91A10, 91A20, 91A40, 91A80, cs.AI, cs.GT, cs.MA, econ.TH, I.2 | Paying to Do Better: Games with Payments between Learning Agents はコメントを受け付けていません

Evaluating Evidence Attribution in Generated Fact Checking Explanations

要約

自動化されたファクトチェックシステムは、生成された説明には幻覚が含まれる可能性があるため、しばしば信頼性と格闘しています。
この作業では、事実確認の説明生成に関する証拠の帰属を探ります。
生成された説明の帰属品質を評価するために、新しい評価プロトコル(引用マスキングと回復)を紹介します。
ヒトアノテーターと自動アノテーターの両方を使用してプロトコルを実装し、LLMアノテーションがヒトアノテーションと相関していることを発見し、帰属評価を自動化できることを示唆しています。
最後に、私たちの実験は、次のことが明らかになりました。(1)最高のパフォーマンスのLLMは、不正確な帰属で説明を生成します。
(2)より良い説明を生成するには、人間がキュレーションした証拠が不可欠です。
コードとデータは、https://github.com/ruixing76/transparent-fcexpで入手できます。

要約(オリジナル)

Automated fact-checking systems often struggle with trustworthiness, as their generated explanations can include hallucinations. In this work, we explore evidence attribution for fact-checking explanation generation. We introduce a novel evaluation protocol — citation masking and recovery — to assess attribution quality in generated explanations. We implement our protocol using both human annotators and automatic annotators, and find that LLM annotation correlates with human annotation, suggesting that attribution assessment can be automated. Finally, our experiments reveal that: (1) the best-performing LLMs still generate explanations with inaccurate attributions; and (2) human-curated evidence is essential for generating better explanations. Code and data are available here: https://github.com/ruixing76/Transparent-FCExp.

arxiv情報

著者 Rui Xing,Timothy Baldwin,Jey Han Lau
発行日 2025-02-11 16:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Evaluating Evidence Attribution in Generated Fact Checking Explanations はコメントを受け付けていません

A statistically consistent measure of Semantic Variability using Language Models

要約

言語モデルによって生成される出力の変動性の問題に対処するために、軽度の仮定の下で統計的に一貫しているセマンティック変動の尺度を提示します。
セマンティックスペクトルエントロピーとして示されるこの尺度は、棚言語モデルのすぐそばに必要な簡単に実装できるアルゴリズムです。
言語モデルにはほとんど制限がありません。明確なシミュレーション研究では、言語モデルから生じるランダム性にもかかわらず、そのような方法が正確なメトリックを生成できることを示しました。

要約(オリジナル)

To address the issue of variability in the output generated by a language model, we present a measure of semantic variability that is statistically consistent under mild assumptions. This measure, denoted as semantic spectral entropy, is a easy to implement algorithm that requires just off the shelf language models. We put very few restrictions on the language models and we have shown in a clear simulation studies that such method can generate accurate metric despite randomness that arise from the language models.

arxiv情報

著者 Yi Liu
発行日 2025-02-11 16:39:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A statistically consistent measure of Semantic Variability using Language Models はコメントを受け付けていません

SoK: A Classification for AI-driven Personalized Privacy Assistants

要約

ユーザーがプライバシー関連の意思決定を行うのを支援するために、AIテクノロジーに基づいたパーソナライズされたプライバシーアシスタントが近年開発されています。
これらのAI駆動型のパーソナライズされたプライバシーアシスタント(AI主導のPPA)は、プライバシー関連の決定要求に満ちた環境での個人データに関する決定を下すのに苦労する可能性があります。
ただし、これらのAI駆動型PPAの特徴、その基礎となる技術、またはその決定の正確性について体系的に調査する研究はありませんでした。
このギャップを埋めるために、科学文献にある既存のソリューションをマッピングするために、知識(SOK)の体系化を提示します。
過去10年間(2013-2023)に1697年のユニークな研究論文を上映し、39の含まれる論文から分類を構築しました。
その結果、このSOKは、出版物の種類、貢献、方法論の質、およびその他の定量的洞察の観点から、AI主導のPPAに関する既存の研究のいくつかの側面をレビューします。
さらに、AI駆動型PPAの包括的な分類を提供し、建築の選択、システムのコンテキスト、使用済みのAIの種類、データソース、決定の種類、意思決定の制御などを掘り下げます。
SOKに基づいて、研究のギャップと課題をさらに強調し、AI主導のPPAの設計と開発に関する推奨事項と、将来の研究の道を策定します。

要約(オリジナル)

To help users make privacy-related decisions, personalized privacy assistants based on AI technology have been developed in recent years. These AI-driven Personalized Privacy Assistants (AI-driven PPAs) can reap significant benefits for users, who may otherwise struggle to make decisions regarding their personal data in environments saturated with privacy-related decision requests. However, no study systematically inquired about the features of these AI-driven PPAs, their underlying technologies, or the accuracy of their decisions. To fill this gap, we present a Systematization of Knowledge (SoK) to map the existing solutions found in the scientific literature. We screened 1697 unique research papers over the last decade (2013-2023), constructing a classification from 39 included papers. As a result, this SoK reviews several aspects of existing research on AI-driven PPAs in terms of types of publications, contributions, methodological quality, and other quantitative insights. Furthermore, we provide a comprehensive classification for AI-driven PPAs, delving into their architectural choices, system contexts, types of AI used, data sources, types of decisions, and control over decisions, among other facets. Based on our SoK, we further underline the research gaps and challenges and formulate recommendations for the design and development of AI-driven PPAs as well as avenues for future research.

arxiv情報

著者 Victor Morel,Leonardo Iwaya,Simone Fischer-Hübner
発行日 2025-02-11 16:46:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | SoK: A Classification for AI-driven Personalized Privacy Assistants はコメントを受け付けていません

Amuro and Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models

要約

大規模な言語モデルの開発は、プリトレイントレインアライインパラダイムの形成につながります。このパラダイムでは、モデルは通常、大きなテキストコーパスで事前に訓練され、モデルを人間の好みまたは下流タスクに合わせてチューニング段階を導きます。

この作業では、複数の中間訓練を受けたモデルチェックポイントを微調整することにより、トレーニング前と微調整の関係を調査します。
18のデータセットでの結果は、i)継続的なトレーニングがモデルを微調整後に発表する潜在的な方法でモデルを改善することを示唆しています。
ii)余分な微調整により、モデルが能力を実証していないデータセットは、トレーニング前の段階でモデルがうまく機能するものよりもはるかに多く獲得します。
iii)モデルは監視された微調整を通じて大幅に利益をもたらしますが、以前に知られているドメインの知識と微調整中に見られないタスクを忘れるかもしれません。
iv)このモデルは、監視された微調整後の評価プロンプトに対する高い感度に似ていますが、この感度はより多くのトレーニングによって緩和される可能性があります。

要約(オリジナル)

The development of large language models leads to the formation of a pre-train-then-align paradigm, in which the model is typically pre-trained on a large text corpus and undergoes a tuning stage to align the model with human preference or downstream tasks. In this work, we investigate the relationship between pre-training and fine-tuning by fine-tuning multiple intermediate pre-trained model checkpoints. Our results on 18 datasets suggest that i) continual pre-training improves the model in a latent way that unveils after fine-tuning; ii) with extra fine-tuning, the datasets that the model does not demonstrate capability gain much more than those that the model performs well during the pre-training stage; iii) although model benefits significantly through supervised fine-tuning, it may forget previously known domain knowledge and the tasks that are not seen during fine-tuning; iv) the model resembles high sensitivity to evaluation prompts after supervised fine-tuning, but this sensitivity can be alleviated by more pre-training.

arxiv情報

著者 Kaiser Sun,Mark Dredze
発行日 2025-02-11 16:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Amuro and Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models はコメントを受け付けていません