Fundamental Limitations in Defending LLM Finetuning APIs

要約

LLMの開発者は、微調整誤用攻撃を防ぐための技術的介入を課しました。攻撃は、パブリックAPIを使用してモデルを微調整することにより敵が保護措置を回避する攻撃です。
以前の研究では、特定の微調整API防御に対するいくつかの成功した攻撃を確立しています。
この作業では、個々の有害なトレーニングまたは推論サンプル(「ポイントワイズ」検出)を検出しようとする微調整APIの防御が、微調整攻撃を防ぐ能力が基本的に制限されていることを示します。
危険な知識をひそかに送信するために、良性モデルの出力(セマンティックまたは構文のバリエーションなど)でエントロピーを再利用する「ポイントワイズではない」攻撃を構築します。
私たちの攻撃は、微調整の前にモデルから収集できる疑いのない良性サンプルのみで構成されています。つまり、トレーニングと推論サンプルはすべて個別に良性で低い複雑さです。
Openaiの微調整APIに対する攻撃をテストし、有害な多肢選択式の質問に対する答えを引き出すことに成功し、他の微調整攻撃をうまく検出する拡張された監視システムを回避することになります。
コミュニティは、ポイントワイズの微調整API防御で明らかにする基本的な制限に取り組む防御を開発することを奨励します。

要約(オリジナル)

LLM developers have imposed technical interventions to prevent fine-tuning misuse attacks, attacks where adversaries evade safeguards by fine-tuning the model using a public API. Previous work has established several successful attacks against specific fine-tuning API defences. In this work, we show that defences of fine-tuning APIs that seek to detect individual harmful training or inference samples (‘pointwise’ detection) are fundamentally limited in their ability to prevent fine-tuning attacks. We construct ‘pointwise-undetectable’ attacks that repurpose entropy in benign model outputs (e.g. semantic or syntactic variations) to covertly transmit dangerous knowledge. Our attacks are composed solely of unsuspicious benign samples that can be collected from the model before fine-tuning, meaning training and inference samples are all individually benign and low-perplexity. We test our attacks against the OpenAI fine-tuning API, finding they succeed in eliciting answers to harmful multiple-choice questions, and that they evade an enhanced monitoring system we design that successfully detects other fine-tuning attacks. We encourage the community to develop defences that tackle the fundamental limitations we uncover in pointwise fine-tuning API defences.

arxiv情報

著者 Xander Davies,Eric Winsor,Tomek Korbak,Alexandra Souly,Robert Kirk,Christian Schroeder de Witt,Yarin Gal
発行日 2025-02-20 18:45:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Fundamental Limitations in Defending LLM Finetuning APIs はコメントを受け付けていません

Probabilistic Robustness in Deep Learning: A Concise yet Comprehensive Guide

要約

Deep Learning(DL)は、さまざまな安全性が批判的なアプリケーションにわたって重要な可能性を実証していますが、その堅牢性を確保することは依然として重要な課題です。
敵対的な堅牢性は最悪のシナリオで広範囲に研究されていますが、確率的堅牢性(PR)は、確率的摂動下での障害の可能性を定量化することにより、より実用的な視点を提供します。
このペーパーでは、PRの簡潔でありながら包括的な概要を提供し、その正式な定義、評価、および強化方法をカバーしています。
PRを改善するために特別に設計された敵対的なトレーニングのための再定式化された「MIN-MAX」最適化フレームワークを導入します。
さらに、PR検証証拠のシステムレベルの安全保証への統合を調査し、DLモデルレベルの堅牢性をシステムレベルのクレームに変換する際の課題に対処します。
最後に、PR評価方法のベンチマーク、PRの生成的AIタスクへの拡張、システムレベルの統合のための厳密な方法論とケーススタディの開発など、オープンな研究の質問を強調します。

要約(オリジナル)

Deep learning (DL) has demonstrated significant potential across various safety-critical applications, yet ensuring its robustness remains a key challenge. While adversarial robustness has been extensively studied in worst-case scenarios, probabilistic robustness (PR) offers a more practical perspective by quantifying the likelihood of failures under stochastic perturbations. This paper provides a concise yet comprehensive overview of PR, covering its formal definitions, evaluation and enhancement methods. We introduce a reformulated ”min-max” optimisation framework for adversarial training specifically designed to improve PR. Furthermore, we explore the integration of PR verification evidence into system-level safety assurance, addressing challenges in translating DL model-level robustness to system-level claims. Finally, we highlight open research questions, including benchmarking PR evaluation methods, extending PR to generative AI tasks, and developing rigorous methodologies and case studies for system-level integration.

arxiv情報

著者 Xingyu Zhao
発行日 2025-02-20 18:47:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Probabilistic Robustness in Deep Learning: A Concise yet Comprehensive Guide はコメントを受け付けていません

Spatial Distribution-Shift Aware Knowledge-Guided Machine Learning

要約

さまざまな地域から収集された多様な土壌特性と気候データの入力が与えられた場合、正確な土地排出を予測するためのモデルを構築することを目指しました。
農業生態系の炭素循環の正確な定量化は、気候変動を緩和し、持続可能な食料生産を確保するために重要であるため、問題は重要です。
土壌の特性、水分、環境条件の不均一な性質を較正することは、意思決定関連のスケールでは困難であるため、正確な土地排出を予測することは困難です。
従来のアプローチでは、空間的な不均一性を活用できない場所に依存しないパラメーターのため、土地の排出量を適切に推定することはなく、大きなデータセットも必要です。
これらの制限を克服するために、同じ領域内の複数のサイトからの土壌水分の有意な空間的不均一性を説明する位置依存パラメーターを活用する空間分布シフト認識の知識誘導機械学習(SDSA-KGML)を提案しました。
実験結果は、SDSA-KGMLモデルが中西部の特定の状態でより高い局所精度を達成することを示しています。

要約(オリジナル)

Given inputs of diverse soil characteristics and climate data gathered from various regions, we aimed to build a model to predict accurate land emissions. The problem is important since accurate quantification of the carbon cycle in agroecosystems is crucial for mitigating climate change and ensuring sustainable food production. Predicting accurate land emissions is challenging since calibrating the heterogeneous nature of soil properties, moisture, and environmental conditions is hard at decision-relevant scales. Traditional approaches do not adequately estimate land emissions due to location-independent parameters failing to leverage the spatial heterogeneity and also require large datasets. To overcome these limitations, we proposed Spatial Distribution-Shift Aware Knowledge-Guided Machine Learning (SDSA-KGML), which leverages location-dependent parameters that account for significant spatial heterogeneity in soil moisture from multiple sites within the same region. Experimental results demonstrate that SDSA-KGML models achieve higher local accuracy for the specified states in the Midwest Region.

arxiv情報

著者 Arun Sharma,Majid Farhadloo,Mingzhou Yang,Ruolei Zeng,Subhankar Ghosh,Shashi Shekhar
発行日 2025-02-20 18:52:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Spatial Distribution-Shift Aware Knowledge-Guided Machine Learning はコメントを受け付けていません

Generating $π$-Functional Molecules Using STGG+ with Active Learning

要約

分散分布特性を備えた新規分子を生成することは、分子発見における大きな課題です。
監視された学習方法は、データセットのものと同様の高品質の分子を生成しますが、分散分布特性に一般化するのに苦労しています。
補強学習は新しい化学スペースを探索できますが、多くの場合「報酬ハッキング」を行い、同様ではない分子を生成します。
この作業では、最先端の監視学習方法であるSTGG+をアクティブな学習ループに統合することにより、この問題に対処します。
当社のアプローチは、stgg+を繰り返し生成、評価、および微調整して、知識を継続的に拡大します。
このアプローチSTGG+ALを示します。
stgg+alを有機$ \ pi $機能材料、特に2つの挑戦的なタスクの設計に適用します。1)高発振器強度と2)近接した合理的な発振器強度を持つ吸収分子を設計する高度に吸収性分子を生成する
nir)範囲。
生成された分子は、時間依存性密度官能理論を備えたシリコ内で検証され、合理化されています。
我々の結果は、私たちの方法が、強化学習(RL)方法などの既存の方法に反して、発振器強度の高い新しい分子を生成するのに非常に効果的であることを示しています。
アクティブラーニングコードと、290万ドルの$ \ PI $結合分子を含む共役-XTBデータセットと、発振器強度と吸収波長(STDA-XTBに基づく)を近似する機能を含む共役-XTBデータセットをオープンソースします。

要約(オリジナル)

Generating novel molecules with out-of-distribution properties is a major challenge in molecular discovery. While supervised learning methods generate high-quality molecules similar to those in a dataset, they struggle to generalize to out-of-distribution properties. Reinforcement learning can explore new chemical spaces but often conducts ‘reward-hacking’ and generates non-synthesizable molecules. In this work, we address this problem by integrating a state-of-the-art supervised learning method, STGG+, in an active learning loop. Our approach iteratively generates, evaluates, and fine-tunes STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We apply STGG+AL to the design of organic $\pi$-functional materials, specifically two challenging tasks: 1) generating highly absorptive molecules characterized by high oscillator strength and 2) designing absorptive molecules with reasonable oscillator strength in the near-infrared (NIR) range. The generated molecules are validated and rationalized in-silico with time-dependent density functional theory. Our results demonstrate that our method is highly effective in generating novel molecules with high oscillator strength, contrary to existing methods such as reinforcement learning (RL) methods. We open-source our active-learning code along with our Conjugated-xTB dataset containing 2.9 million $\pi$-conjugated molecules and the function for approximating the oscillator strength and absorption wavelength (based on sTDA-xTB).

arxiv情報

著者 Alexia Jolicoeur-Martineau,Yan Zhang,Boris Knyazev,Aristide Baratin,Cheng-Hao Liu
発行日 2025-02-20 18:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Generating $π$-Functional Molecules Using STGG+ with Active Learning はコメントを受け付けていません

LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning

要約

長いコンテキストの理解は、限られたコンテキストウィンドウのため、大規模な言語モデルでは依然として困難です。
このホワイトペーパーでは、長い入力に基づいてモデルパラメーターを動的に適応させることにより、任意の(ショートコンテキスト)LLMSの長いコンテキストパフォーマンスを改善できる長いコンテキストモデリングの新しいフレームワークであるLong Input Fine-Tuning(Lift)を紹介します。
重要なことに、コンテキストのウィンドウサイズを際限なく拡張してコンテキストでますます長い入力に対応するのではなく、パラメーターの長い入力を保存して吸収することを選択します。
モデルパラメーターへの長い入力を微調整することにより、Liftは、推論中にコンテキストで必要な情報が提供されていない場合でも、短いコンテキストLLMSが質問に答えることができます。
さらに、元のコンテキスト学習(ICL)機能を維持しながらリフトパフォーマンスを向上させるために、ゲートメモリを導入します。ゲートメモリは、長い入力暗記とICLのバランスを自動的にバランスさせる特殊な注意アダプターです。
私たちは、長い文脈の理解におけるリフトの強みと制限の包括的な分析を提供し、将来の研究のための貴重な方向性を提供します。

要約(オリジナル)

Long context understanding remains challenging for large language models due to their limited context windows. This paper presents Long Input Fine-Tuning (LIFT), a novel framework for long-context modeling that can improve the long-context performance of arbitrary (short-context) LLMs by dynamically adapting model parameters based on the long input. Importantly, LIFT, rather than endlessly extending the context window size to accommodate increasingly longer inputs in context, chooses to store and absorb the long input in parameter. By fine-tuning the long input into model parameters, LIFT allows short-context LLMs to answer questions even when the required information is not provided in the context during inference. Furthermore, to enhance LIFT performance while maintaining the original in-context learning (ICL) capabilities, we introduce Gated Memory, a specialized attention adapter that automatically balances long input memorization and ICL. We provide a comprehensive analysis of the strengths and limitations of LIFT on long context understanding, offering valuable directions for future research.

arxiv情報

著者 Yansheng Mao,Yufei Xu,Jiaqi Li,Fanxu Meng,Haotong Yang,Zilong Zheng,Xiyuan Wang,Muhan Zhang
発行日 2025-02-20 15:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning はコメントを受け付けていません

Edit Once, Update Everywhere: A Simple Framework for Cross-Lingual Knowledge Synchronization in LLMs

要約

知識編集により、完全な再訓練を必要とせずに、新しい情報または修正への大規模な言語モデル(LLM)を効率的に適応させることができます。
ただし、以前の方法は通常、単一言語の編集または基本的な多言語編集のいずれかに焦点を当てており、真の言語的知識の同期を達成できません。
これに対処するために、支配的な言語から他の言語に効果的に知識を伝播するように設計された、シンプルで実用的な最先端(SOTA)レシピ民主主義編集(X-KDE)を提示します。
X-KDEは2つの段階で構成されています。(i)横断版の指示チューニング(XE-IT)。これは、無関係な情報を保存しながらスコープ内の知識を変更するためにキュレーションされた並列データセットでモデルを微調整し、(ii)ターゲット
-Language Preference Optimization(TL-PO)。これは、高度な最適化手法を適用して、言語間の一貫性を確保し、更新の転送を促進します。
さらに、言語間での知識移転を強化するために特別に設計された高品質で言語間データセットを提供します。
BI-ZSREおよびMZSREベンチマークに関する広範な実験は、X-KDEが横断的パフォーマンスを大幅に向上させ、平均改善を +8.19%に達成し、単一言語の設定では高い精度を維持することを示しています。

要約(オリジナル)

Knowledge editing allows for efficient adaptation of large language models (LLMs) to new information or corrections without requiring full retraining. However, prior methods typically focus on either single-language editing or basic multilingual editing, failing to achieve true cross-linguistic knowledge synchronization. To address this, we present a simple and practical state-of-the-art (SOTA) recipe Cross-Lingual Knowledge Democracy Edit (X-KDE), designed to propagate knowledge from a dominant language to other languages effectively. Our X-KDE comprises two stages: (i) Cross-lingual Edition Instruction Tuning (XE-IT), which fine-tunes the model on a curated parallel dataset to modify in-scope knowledge while preserving unrelated information, and (ii) Target-language Preference Optimization (TL-PO), which applies advanced optimization techniques to ensure consistency across languages, fostering the transfer of updates. Additionally, we contribute a high-quality, cross-lingual dataset, specifically designed to enhance knowledge transfer across languages. Extensive experiments on the Bi-ZsRE and MzsRE benchmarks show that X-KDE significantly enhances cross-lingual performance, achieving an average improvement of +8.19%, while maintaining high accuracy in monolingual settings.

arxiv情報

著者 Yuchen Wu,Liang Ding,Li Shen,Dacheng Tao
発行日 2025-02-20 15:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Edit Once, Update Everywhere: A Simple Framework for Cross-Lingual Knowledge Synchronization in LLMs はコメントを受け付けていません

Certified Robustness Under Bounded Levenshtein Distance

要約

テキスト分類器は、敵対的に選択された場合、モデルの出力を劇的に変化させる可能性があるという小さな摂動に苦しんでいます。
検証方法は、堅牢な精度で音の下限を計算することにより、このような敵対的な摂動に対して堅牢性証明書を提供できます。
それにもかかわらず、既存の検証方法は法外なコストで発生し、Levenshteinの距離制約を実際に処理することはできません。
Levenshtein距離に関する畳み込み分類器のリプシッツ定数を計算するための最初の方法を提案します。
これらのLipschitz定数推定値を使用して、1-Lipschitz分類器をトレーニングします。
これにより、単一のフォワードパスで分類子の認定半径を計算できます。
私たちの方法であるLipslevは、Ag-Newsデータセットでそれぞれ$ 1 $ $ 1 $と$ 2 $で38.80 $%および$ 13.93 $%の検証精度を得ることができますが、既存のアプローチよりも4ドル幅の高速です。
私たちの仕事は、テキストドメインでより効率的な検証への扉を開くことができると考えています。

要約(オリジナル)

Text classifiers suffer from small perturbations, that if chosen adversarially, can dramatically change the output of the model. Verification methods can provide robustness certificates against such adversarial perturbations, by computing a sound lower bound on the robust accuracy. Nevertheless, existing verification methods incur in prohibitive costs and cannot practically handle Levenshtein distance constraints. We propose the first method for computing the Lipschitz constant of convolutional classifiers with respect to the Levenshtein distance. We use these Lipschitz constant estimates for training 1-Lipschitz classifiers. This enables computing the certified radius of a classifier in a single forward pass. Our method, LipsLev, is able to obtain $38.80$% and $13.93$% verified accuracy at distance $1$ and $2$ respectively in the AG-News dataset, while being $4$ orders of magnitude faster than existing approaches. We believe our work can open the door to more efficient verification in the text domain.

arxiv情報

著者 Elias Abad Rocamora,Grigorios G. Chrysos,Volkan Cevher
発行日 2025-02-20 15:44:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Certified Robustness Under Bounded Levenshtein Distance はコメントを受け付けていません

InstructAgent: Building User Controllable Recommender via LLM Agent

要約

従来の推奨システムは通常、ユーザープラットフォームのパラダイムを採用します。ユーザーは、プラットフォームの推奨アルゴリズムの制御下で直接公開されます。
ただし、推奨アルゴリズムの欠陥は、このパラダイムの下でユーザーを非常に脆弱な位置に置く可能性があります。
第一に、多くの洗練されたモデルは、多くの場合、商業目標を念頭に置いて設計されており、プラットフォームの利点に焦点を当てており、ユーザーの真の関心を保護およびキャプチャする能力を妨げる可能性があります。
第二に、これらのモデルは通常、すべてのユーザーのデータを使用して最適化されており、個々のユーザーの好みを見落とす可能性があります。
これらの欠点により、ユーザーは、推奨システムの制御の欠如、プラットフォームによる潜在的な操作、エコーチャンバー効果、またはアクティブなユーザーのより少ないアクティブユーザーのパーソナライズの欠如など、従来のユーザープラットフォーム直接露出パラダイムの下でいくつかの欠点を経験する可能性があります。
共同学習中のアクティブユーザーの優位性。
したがって、ユーザーの関心を保護し、これらの問題を軽減するために、新しいパラダイムを開発する緊急の必要性があります。
最近、一部の研究者がユーザーの動作をシミュレートするためにLLMエージェントを導入しました。これらのアプローチは主にプラットフォーム側のパフォーマンスを最適化することを目指しており、推奨システムのコア問題を解決していません。
これらの制限に対処するために、エージェントが間接的な露出を可能にするユーザーと推奨システムの間の保護シールドとして機能する新しいユーザーエージェントプラットフォームパラダイムを提案します。
この目的のために、最初に、各レコードのユーザー命令とともに、$ \ dataset $として示される4つの推奨データセットを作成します。

要約(オリジナル)

Traditional recommender systems usually take the user-platform paradigm, where users are directly exposed under the control of the platform’s recommendation algorithms. However, the defect of recommendation algorithms may put users in very vulnerable positions under this paradigm. First, many sophisticated models are often designed with commercial objectives in mind, focusing on the platform’s benefits, which may hinder their ability to protect and capture users’ true interests. Second, these models are typically optimized using data from all users, which may overlook individual user’s preferences. Due to these shortcomings, users may experience several disadvantages under the traditional user-platform direct exposure paradigm, such as lack of control over the recommender system, potential manipulation by the platform, echo chamber effects, or lack of personalization for less active users due to the dominance of active users during collaborative learning. Therefore, there is an urgent need to develop a new paradigm to protect user interests and alleviate these issues. Recently, some researchers have introduced LLM agents to simulate user behaviors, these approaches primarily aim to optimize platform-side performance, leaving core issues in recommender systems unresolved. To address these limitations, we propose a new user-agent-platform paradigm, where agent serves as the protective shield between user and recommender system that enables indirect exposure. To this end, we first construct four recommendation datasets, denoted as $\dataset$, along with user instructions for each record.

arxiv情報

著者 Wujiang Xu,Yunxiao Shi,Zujie Liang,Xuying Ning,Kai Mei,Kun Wang,Xi Zhu,Min Xu,Yongfeng Zhang
発行日 2025-02-20 15:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | InstructAgent: Building User Controllable Recommender via LLM Agent はコメントを受け付けていません

AlphaMaze: Enhancing Large Language Models’ Spatial Intelligence via GRPO

要約

大規模な言語モデル(LLM)は、言語処理における印象的な能力を実証していますが、多くの場合、本物の視覚的空間推論を必要とするタスクに苦労しています。
このペーパーでは、ゼロナビゲーションの視覚的推論能力を標準LLMに装備するために設計された新しい2段階トレーニングフレームワークを紹介します。
まず、トークン化された迷路表現のキュレーションされたデータセットに監視された微調整(SFT)を活用して、段階的な動きのコマンドを予測するようモデルに教えます。
次に、グループ相対ポリシー最適化(GRPO)を適用します。これは、モデルのシーケンシャルな意思決定を改良し、緊急のチェーンオブサブの行動を促進するために、慎重に作成された報酬機能を備えたdeepseekr1で使用される手法です。
合成的に生成された迷路での実験結果は、ベースラインモデルが迷路のナビゲートに失敗する一方で、SFTトレーニングモデルは86%の精度を達成し、GRPOの微調整が精度を93%に増やすことを示しています。
定性的分析により、GRPOはより堅牢で自己保護された推論を促進し、言語モデルと視覚的な空間タスクのギャップを埋めるアプローチの可能性を強調しています。
これらの調査結果は、統合された視覚的および順次推論を必要とするロボット工学、自律ナビゲーション、およびその他のドメインにおけるアプリケーションに有望な意味を提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive capabilities in language processing, yet they often struggle with tasks requiring genuine visual spatial reasoning. In this paper, we introduce a novel two-stage training framework designed to equip standard LLMs with visual reasoning abilities for maze navigation. First, we leverage Supervised Fine Tuning (SFT) on a curated dataset of tokenized maze representations to teach the model to predict step-by-step movement commands. Next, we apply Group Relative Policy Optimization (GRPO)-a technique used in DeepSeekR1-with a carefully crafted reward function to refine the model’s sequential decision-making and encourage emergent chain-of-thought behaviors. Experimental results on synthetically generated mazes show that while a baseline model fails to navigate the maze, the SFT-trained model achieves 86% accuracy, and further GRPO fine-tuning boosts accuracy to 93%. Qualitative analyses reveal that GRPO fosters more robust and self-corrective reasoning, highlighting the potential of our approach to bridge the gap between language models and visual spatial tasks. These findings offer promising implications for applications in robotics, autonomous navigation, and other domains that require integrated visual and sequential reasoning.

arxiv情報

著者 Alan Dao,Dinh Bach Vu
発行日 2025-02-20 16:05:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AlphaMaze: Enhancing Large Language Models’ Spatial Intelligence via GRPO はコメントを受け付けていません

Explanations of Deep Language Models Explain Language Representations in the Brain

要約

人工知能の最近の進歩により、人間のようなパフォーマンスを達成するだけでなく、脳の言語処理メカニズムと計算原理を共有する大規模な言語モデル(LLM)が生まれました。
以前の研究では、主にLLMSの内部表現を神経活動と整列させることに焦点を当てていましたが、2つのドメイン間でより深いつながりを築くために説明可能なAI(XAI)方法を活用する新しいアプローチを導入します。
帰属方法を使用して、先行する単語がLLMの次の単語予測にどのように寄与するかを定量化し、これらの説明を使用して、同じ物語を聞いている参加者からfMRI録音を予測しました。
私たちの調査結果は、帰属方法が言語ネットワーク全体で脳の活動を堅牢に予測し、初期の言語分野の従来の内部表現を上回っていることを示しています。
このアラインメントは階層的です。初期層の説明は、脳の言語処理の初期段階に対応しますが、後の層はより高度な段階に合わせます。
さらに、レイヤーはLLMの次のワード予測$ \ unicode {x2014} $より高い属性スコアを持つ$ \ unicode {x2014} $を備えたもので、神経活動とより強い整合性を示しました。
この作業は、AIと神経科学の間の双方向の橋を確立します。
まず、属性方法は、言語理解の神経メカニズムを調査するための強力なレンズを提供し、前のコンテキストから意味がどのように現れるかを明らかにすることを実証します。
第二に、脳のアライメントをメトリックとして使用して、帰属方法の妥当性を評価し、生物学的妥当性を評価するためのフレームワークを提供することを提案します。

要約(オリジナル)

Recent advances in artificial intelligence have given rise to large language models (LLMs) that not only achieve human-like performance but also share computational principles with the brain’s language processing mechanisms. While previous research has primarily focused on aligning LLMs’ internal representations with neural activity, we introduce a novel approach that leverages explainable AI (XAI) methods to forge deeper connections between the two domains. Using attribution methods, we quantified how preceding words contribute to an LLM’s next-word predictions and employed these explanations to predict fMRI recordings from participants listening to the same narratives. Our findings demonstrate that attribution methods robustly predict brain activity across the language network, surpassing traditional internal representations in early language areas. This alignment is hierarchical: early-layer explanations correspond to the initial stages of language processing in the brain, while later layers align with more advanced stages. Moreover, the layers more influential on LLM next-word prediction$\unicode{x2014}$those with higher attribution scores$\unicode{x2014}$exhibited stronger alignment with neural activity. This work establishes a bidirectional bridge between AI and neuroscience. First, we demonstrate that attribution methods offer a powerful lens for investigating the neural mechanisms of language comprehension, revealing how meaning emerges from preceding context. Second, we propose using brain alignment as a metric to evaluate the validity of attribution methods, providing a framework for assessing their biological plausibility.

arxiv情報

著者 Maryam Rahimi,Yadollah Yaghoobzadeh,Mohammad Reza Daliri
発行日 2025-02-20 16:05:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.NC | Explanations of Deep Language Models Explain Language Representations in the Brain はコメントを受け付けていません