Investigating the effect of CPT in lateral spreading prediction using Explainable AI

要約

この研究では、AIモデルにCPTデータを組み込む可能性を評価するために、コーン浸透テストプロファイルから潜在的な特徴を抽出する自動エンコーダーアプローチを提案しています。
自動エンコーダーを使用して、重要な情報を保持しながら、土壌挙動タイプ指数(IC)および正規化されたコーン抵抗(QC1NC)の200 CPTプロファイルを圧縮します。
次に、抽出された潜在的な特徴をサイトパラメーターで利用して、2011年のクライストチャーチ地震での横方向の拡散発生を予測するためにXgboostモデルをトレーニングします。
潜在的なCPTを使用したモデルは、従来のCPTメトリックまたはCPTデータなしのアウトパフォームモデルを機能させ、83%以上の精度を達成しています。
説明可能なAIは、1〜3メートルの深さの土壌挙動に対応する最も重要な潜在的な特徴を明らかにし、液化評価のためのこの深さ範囲の重要性を強調しました。
Autoencoderアプローチは、CPTプロファイルを機械学習液化モデルの有益な潜在的な機能に凝縮するための自動化された手法を提供します。

要約(オリジナル)

This study proposes an autoencoder approach to extract latent features from cone penetration test profiles to evaluate the potential of incorporating CPT data in an AI model. We employ autoencoders to compress 200 CPT profiles of soil behavior type index (Ic) and normalized cone resistance (qc1Ncs) into ten latent features while preserving critical information. We then utilize the extracted latent features with site parameters to train XGBoost models for predicting lateral spreading occurrences in the 2011 Christchurch earthquake. Models using the latent CPT features outperformed models with conventional CPT metrics or no CPT data, achieving over 83% accuracy. Explainable AI revealed the most crucial latent feature corresponding to soil behavior between 1-3 meter depths, highlighting this depth range’s criticality for liquefaction evaluation. The autoencoder approach provides an automated technique for condensing CPT profiles into informative latent features for machine-learning liquefaction models.

arxiv情報

著者 Cheng-Hsi Hsiao,Ellen Rathje,Krishna Kumar
発行日 2025-03-17 17:22:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.geo-ph | Investigating the effect of CPT in lateral spreading prediction using Explainable AI はコメントを受け付けていません

What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis

要約

変圧器アーキテクチャは、間違いなく深い学習に革命をもたらし、多層パーセプトロン(MLP)や畳み込みニューラルネットワーク(CNNS)などの古典的なアーキテクチャを追い抜いています。
そのコアでは、注意ブロックは、MLPS/CNNと比較して、トランスが適応型オプティマイザー、層の正規化、学習率のウォームアップなどをより頻繁に伴う程度まで、深い学習における他のほとんどのアーキテクチャコンポーネントと形式と機能が異なります。
この作業では、(損失)ヘシアンの理論的比較に基づいた他のアーキテクチャと変圧器を区別するものの基本的な理解を提供することにより、このギャップを埋めます。
具体的には、単一の自己関節層の場合、(a)最初にトランスのヘシアンを完全に導き出し、マトリックス誘導体で表現します。
(b)次に、データ、重量、および注意モーメントの依存性の観点から特徴付けます。
(c)そうしている間、古典的なネットワークのヘシアンの重要な構造の違いをさらに強調します。
我々の結果は、変圧器のさまざまな一般的な建築と最適化の選択が、パラメーター間で不均一に異なるデータと重量マトリックスの非常に非線形依存関係にまでさかのぼることができることを示唆しています。
最終的に、私たちの調査結果は、変圧器のユニークな最適化環境とそれがもたらす課題をより深く理解しています。

要約(オリジナル)

The Transformer architecture has inarguably revolutionized deep learning, overtaking classical architectures like multi-layer perceptrons (MLPs) and convolutional neural networks (CNNs). At its core, the attention block differs in form and functionality from most other architectural components in deep learning–to the extent that, in comparison to MLPs/CNNs, Transformers are more often accompanied by adaptive optimizers, layer normalization, learning rate warmup, etc. The root causes behind these outward manifestations and the precise mechanisms that govern them remain poorly understood. In this work, we bridge this gap by providing a fundamental understanding of what distinguishes the Transformer from the other architectures–grounded in a theoretical comparison of the (loss) Hessian. Concretely, for a single self-attention layer, (a) we first entirely derive the Transformer’s Hessian and express it in matrix derivatives; (b) we then characterize it in terms of data, weight, and attention moment dependencies; and (c) while doing so further highlight the important structural differences to the Hessian of classical networks. Our results suggest that various common architectural and optimization choices in Transformers can be traced back to their highly non-linear dependencies on the data and weight matrices, which vary heterogeneously across parameters. Ultimately, our findings provide a deeper understanding of the Transformer’s unique optimization landscape and the challenges it poses.

arxiv情報

著者 Weronika Ormaniec,Felix Dangel,Sidak Pal Singh
発行日 2025-03-17 17:32:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis はコメントを受け付けていません

Measuring In-Context Computation Complexity via Hidden State Prediction

要約

ニューラルシーケンスモデルが「興味深い」計算を行うときに検出することは、オープンな問題です。
次のトークン予測の損失は貧弱な指標です。低損失は、面白くない些細な予測可能なシーケンスに起因する可能性がありますが、高い損失は予測不可能であるが、モデルによって無視できる無関係な情報を反映する可能性があります。
私たちはより良いメトリックを提案します:それ自体の将来の隠された状態を予測するモデルの能力を測定します。
次のトークン予測損失とは対照的に、このメトリックは、タスクの直感的な興味深さと相関することを経験的に示します。
予測可能性を測定するために、ネットワークの主要な経路(たとえば、変圧器の残留ストリーム)での情報ボトルネックとして機能する建築に依存しない「隠された状態の予測」(PHI)層を導入します。
私たちは、メトリックとして機能する各計算ステップで得られた新しい情報を測定できるようにする、予測前の小説を提案します。
私たちのメトリックは、文書内で学習した正式な言語の説明の長さ、数学的推論の問題の複雑さ、および自己生成された推論チェーンの正しさを予測することを経験的に示します。

要約(オリジナル)

Detecting when a neural sequence model does ‘interesting’ computation is an open problem. The next token prediction loss is a poor indicator: Low loss can stem from trivially predictable sequences that are uninteresting, while high loss may reflect unpredictable but also irrelevant information that can be ignored by the model. We propose a better metric: measuring the model’s ability to predict its own future hidden states. We show empirically that this metric — in contrast to the next token prediction loss — correlates with the intuitive interestingness of the task. To measure predictability, we introduce the architecture-agnostic ‘prediction of hidden states’ (PHi) layer that serves as an information bottleneck on the main pathway of the network (e.g., the residual stream in Transformers). We propose a novel learned predictive prior that enables us to measure the novel information gained in each computation step, which serves as our metric. We show empirically that our metric predicts the description length of formal languages learned in-context, the complexity of mathematical reasoning problems, and the correctness of self-generated reasoning chains.

arxiv情報

著者 Vincent Herrmann,Róbert Csordás,Jürgen Schmidhuber
発行日 2025-03-17 17:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.6 | Measuring In-Context Computation Complexity via Hidden State Prediction はコメントを受け付けていません

Uncovering Utility Functions from Observed Outcomes

要約

消費者の好みとユーティリティを決定することは、経済学における基本的な課題です。
彼らは、ユーティリティ最大の消費者意思決定プロセスを通じて消費者の行動を決定することに中心的です。
ただし、好みやユーティリティは観察できず、選択をする個人にさえ知られていない場合があります。
結果のみが需要の形で観察されます。
意思決定メカニズムを観察する能力がなければ、需要の推定は困難なタスクになり、スケーラビリティの欠如または因果効果を特定する能力のために現在の方法が不足します。
これらの効果を推定することは、価格設定、税金や補助金の影響、関税の影響など、ポリシーの変更を検討する場合に重要です。
既存の方法の欠点に対処するために、明らかにされた優先理論と逆強化学習を組み合わせて、新しいアルゴリズム、優先抽出、報酬学習(Pearl)を提示します。
柔軟なユーティリティ機能である、クロスプライスの弾力性を含む商品全体の複雑な関係をキャプチャする入力concaveニューラルネットワークを紹介します。
結果は、パールがノイズフリーとノイズの多い合成データの両方のベンチマークを上回ることを示しています。

要約(オリジナル)

Determining consumer preferences and utility is a foundational challenge in economics. They are central in determining consumer behaviour through the utility-maximising consumer decision-making process. However, preferences and utilities are not observable and may not even be known to the individual making the choice; only the outcome is observed in the form of demand. Without the ability to observe the decision-making mechanism, demand estimation becomes a challenging task and current methods fall short due to lack of scalability or ability to identify causal effects. Estimating these effects is critical when considering changes in policy, such as pricing, the impact of taxes and subsidies, and the effect of a tariff. To address the shortcomings of existing methods, we combine revealed preference theory and inverse reinforcement learning to present a novel algorithm, Preference Extraction and Reward Learning (PEARL) which, to the best of our knowledge, is the only algorithm that can uncover a representation of the utility function that best rationalises observed consumer choice data given a specified functional form. We introduce a flexible utility function, the Input-Concave Neural Network which captures complex relationships across goods, including cross-price elasticities. Results show PEARL outperforms the benchmark on both noise-free and noisy synthetic data.

arxiv情報

著者 Marta Grzeskiewicz
発行日 2025-03-17 17:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Uncovering Utility Functions from Observed Outcomes はコメントを受け付けていません

Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text

要約

大規模な言語モデルの開発における重要な進歩は、人間とAIの生成されたテキストの区別の曖昧さに貢献しています。
AIに生成されたテキストの広がりの増加とそれを検出することの難しさは、私たちの社会に新たな課題をもたらします。
この論文では、特定の入力テキストが人間またはAIによって生成され、テキストの著者を発表するように設計されたトリプレットネットワークのコントラスト学習フレームワークであるWhosaiを提案することにより、AIの生成テキストを検出および帰属させる問題に取り組みます。
ほとんどの既存のアプローチとは異なり、提案されたフレームワークは、複数のジェネレーターから一度にセマンティックな類似性表現を学習するために考案されており、したがって、検出タスクと属性タスクの両方を等しく処理します。
さらに、WHOSAIはモデルに依存しており、新しいAIテキストジェネレーションモデルのリリースに対して、生成されたインスタンスをフレームワークによって学習した埋め込みスペースに組み込むことにより、スケーラブルです。
200Kニュース記事のチューリングベンチベンチマークの実験結果は、提案されたフレームワークがチューリングテストと著者の帰属タスクの両方で優れた結果を達成し、チューリングベンチベンチマークリーダーボードにリストされているすべての方法を上回ることを示しています。

要約(オリジナル)

The significant progress in the development of Large Language Models has contributed to blurring the distinction between human and AI-generated text. The increasing pervasiveness of AI-generated text and the difficulty in detecting it poses new challenges for our society. In this paper, we tackle the problem of detecting and attributing AI-generated text by proposing WhosAI, a triplet-network contrastive learning framework designed to predict whether a given input text has been generated by humans or AI and to unveil the authorship of the text. Unlike most existing approaches, our proposed framework is conceived to learn semantic similarity representations from multiple generators at once, thus equally handling both detection and attribution tasks. Furthermore, WhosAI is model-agnostic and scalable to the release of new AI text-generation models by incorporating their generated instances into the embedding space learned by our framework. Experimental results on the TuringBench benchmark of 200K news articles show that our proposed framework achieves outstanding results in both the Turing Test and Authorship Attribution tasks, outperforming all the methods listed in the TuringBench benchmark leaderboards.

arxiv情報

著者 Lucio La Cava,Davide Costa,Andrea Tagarelli
発行日 2025-03-17 09:19:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, physics.soc-ph | Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text はコメントを受け付けていません

SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition

要約

Sensorllmは、センサーデータから人間の活動認識(HAR)を実行できるようにする2段階のフレームワークです。
強い推論と一般化能力にもかかわらず、LLMは、数値入力の処理における意味シリーズ、計算上の制約、および課題がないため、モーションセンサーデータのために十分に活用されていません。
Sensorllmは、センサー言語アラインメント段階を介してこれらの制限に対処し、各センサーチャネルに特別なトークンを導入し、テキストトレンドの説明を自動的に生成します。
このアラインメントにより、LLMは数値の変動、チャネル固有の特徴、およびさまざまな期間のデータをキャプチャできます。
その後のタスク対応チューニング段階では、HAR分類のモデルを改良し、最先端の方法に一致または上回るパフォーマンスを実現します。
我々の結果は、SensorllMがセンサー言語のアライメントを介して効果的なセンサー学習者、推論、および分類器に進化し、多様なHARデータセット全体に一般化することを示しています。
この作業は、時系列とテキストの調整に関する将来の研究の基盤を確立し、センサーデータ分析の基礎モデルへの道を開いていると考えています。

要約(オリジナル)

We introduce SensorLLM, a two-stage framework that enables Large Language Models (LLMs) to perform human activity recognition (HAR) from sensor data. Despite their strong reasoning and generalization capabilities, LLMs remain underutilized for motion sensor data due to the lack of semantic context in time-series, computational constraints, and challenges in processing numerical inputs. SensorLLM addresses these limitations through a Sensor-Language Alignment stage, where we introduce special tokens for each sensor channel and automatically generate textual trend descriptions. This alignment enables LLMs to capture numerical variations, channel-specific features, and data of varying duration–without requiring human annotations. In the subsequent Task-Aware Tuning stage, we refine the model for HAR classification, achieving performance that matches or surpasses state-of-the-art methods. Our results demonstrate that SensorLLM evolves into an effective sensor learner, reasoner, and classifier through Sensor-Language Alignment, generalizing across diverse HAR datasets. We believe this work establishes a foundation for future research on time-series and text alignment, paving the way for foundation models in sensor data analysis.

arxiv情報

著者 Zechen Li,Shohreh Deldari,Linyao Chen,Hao Xue,Flora D. Salim
発行日 2025-03-17 09:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition はコメントを受け付けていません

A Multi-Stage Framework with Taxonomy-Guided Reasoning for Occupation Classification Using Large Language Models

要約

職業分類として知られる分類術からの標準化された職業とのジョブデータを自動的に注釈することは、労働市場分析にとって重要です。
ただし、このタスクは、データ不足と手動注釈の課題によってしばしば妨げられます。
大規模な言語モデル(LLMS)は、広範な世界知識とコンテキスト学習能力のために有望ですが、その有効性は職業分類学の知識に依存していますが、それは不明のままです。
この研究では、LLMSが分類から正確な分類学的エンティティを生成する能力を評価し、それらの制限を強調します。
これらの課題に対処するために、推論、検索、および再ランキングの段階で構成される多段階のフレームワークを提案します。これは、アウトプットを分類学的知識に合わせることでパフォーマンスを向上させるための分類学的推論の例を統合します。
大規模なデータセットの評価では、分類の精度が大幅に改善されています。
さらに、マルチラベルスキル分類に対するフレームワークの適応性を示します。
我々の結果は、フレームワークが既存のLLMベースの方法を上回り、LLM全体で職業分類と関連するタスクのための実用的でスケーラブルなソリューションを提供することを示しています。

要約(オリジナル)

Automatically annotating job data with standardized occupations from taxonomies, known as occupation classification, is crucial for labor market analysis. However, this task is often hindered by data scarcity and the challenges of manual annotations. While large language models (LLMs) hold promise due to their extensive world knowledge and in-context learning capabilities, their effectiveness depends on their knowledge of occupational taxonomies, which remains unclear. In this study, we assess the ability of LLMs to generate precise taxonomic entities from taxonomy, highlighting their limitations. To address these challenges, we propose a multi-stage framework consisting of inference, retrieval, and reranking stages, which integrates taxonomy-guided reasoning examples to enhance performance by aligning outputs with taxonomic knowledge. Evaluations on a large-scale dataset show significant improvements in classification accuracy. Furthermore, we demonstrate the framework’s adaptability for multi-label skill classification. Our results indicate that the framework outperforms existing LLM-based methods, offering a practical and scalable solution for occupation classification and related tasks across LLMs.

arxiv情報

著者 Palakorn Achananuparp,Ee-Peng Lim
発行日 2025-03-17 09:44:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SI | A Multi-Stage Framework with Taxonomy-Guided Reasoning for Occupation Classification Using Large Language Models はコメントを受け付けていません

Intra-neuronal attention within language models Relationships between activation and semantics

要約

この研究では、言語モデルにおけるパーセプトロン型ニューロンの能力を調査して、神経内の注意を喚起します。
つまり、特に反応するトークンの特定の活性化ゾーンのセグメンテーションに基づいて、エンコードする合成思想カテゴリ内の異なる均質なカテゴリセグメントを識別するためです。
したがって、この作業の目的は、正式なニューロンが活性化ベースとカテゴリのセグメンテーションの間に同型の関係を確立できる程度を決定することです。
結果は、非常に高い活性化レベルを持つトークンのレベルでのみ、そのような関係の存在を示唆しています。
その後、この神経内の注意は、次の層のニューロンのレベルでカテゴリの再構築プロセスを可能にし、それによって高レベルのカテゴリー抽象化の進行性形成に貢献します。

要約(オリジナル)

This study investigates the ability of perceptron-type neurons in language models to perform intra-neuronal attention; that is, to identify different homogeneous categorical segments within the synthetic thought category they encode, based on a segmentation of specific activation zones for the tokens to which they are particularly responsive. The objective of this work is therefore to determine to what extent formal neurons can establish a homomorphic relationship between activation-based and categorical segmentations. The results suggest the existence of such a relationship, albeit tenuous, only at the level of tokens with very high activation levels. This intra-neuronal attention subsequently enables categorical restructuring processes at the level of neurons in the following layer, thereby contributing to the progressive formation of high-level categorical abstractions.

arxiv情報

著者 Michael Pichat,William Pogrund,Paloma Pichat,Armanouche Gasparian,Samuel Demarchi,Corbet Alois Georgeon,Michael Veillet-Guillem
発行日 2025-03-17 09:47:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.NC | Intra-neuronal attention within language models Relationships between activation and semantics はコメントを受け付けていません

Exploring ReAct Prompting for Task-Oriented Dialogue: Insights and Shortcomings

要約

大規模な言語モデル(LLMS)は、構造化されていない会話における印象的な能力のために、非常に人気を博しました。
推論や演技(React)(Yao et al。、2022)などの高度なプロンプト戦略でLLMSに力を与えることは、伝統的に強化学習を必要とする複雑なタスクを解決することに有望であることを示しています。
この作業では、React戦略を適用して、タスク指向の対話(TOD)を実行するLLMSをガイドします。
シミュレーションと実際のユーザーとの両方で、ReactベースのLLMS(React-LLMS)を評価します。
React-llmsは、シミュレーションの成功率に関する最先端のアプローチを大幅に下回っていますが、この違いは人間の評価ではあまり顕著ではありません。
さらに、ベースラインと比較して、人間は、その自然で自信を持ってフレーズされた応答のおかげで、その成功率が低いにもかかわらず、反応llmに対するより高い主観的な満足度を報告しています。

要約(オリジナル)

Large language models (LLMs) gained immense popularity due to their impressive capabilities in unstructured conversations. Empowering LLMs with advanced prompting strategies such as reasoning and acting (ReAct) (Yao et al., 2022) has shown promise in solving complex tasks traditionally requiring reinforcement learning. In this work, we apply the ReAct strategy to guide LLMs performing task-oriented dialogue (TOD). We evaluate ReAct-based LLMs (ReAct-LLMs) both in simulation and with real users. While ReAct-LLMs severely underperform state-of-the-art approaches on success rate in simulation, this difference becomes less pronounced in human evaluation. Moreover, compared to the baseline, humans report higher subjective satisfaction with ReAct-LLM despite its lower success rate, most likely thanks to its natural and confidently phrased responses.

arxiv情報

著者 Michelle Elizabeth,Morgan Veyret,Miguel Couceiro,Ondrej Dusek,Lina M. Rojas-Barahona
発行日 2025-03-17 10:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | Exploring ReAct Prompting for Task-Oriented Dialogue: Insights and Shortcomings はコメントを受け付けていません

TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning

要約

英語中心の大手言語モデル(LLMS)に対するバックドア攻撃の意味は広く調べられています。そのような攻撃は、トレーニング中に悪意のある行動を埋め込むことで達成でき、悪意のある出力を引き起こす特定の条件の下で活性化できます。
オープンソースおよび独自のLLMSにおける多言語機能に対するサポートの増加にもかかわらず、これらのシステムに対するバックドア攻撃の影響は、ほとんど探求されていないままです。
私たちの研究は、多言語LLMに対する言語間バックドア攻撃に焦点を当てています。特に、1つまたは2つの言語の命令調整データを中毒することで、命令調整データが中毒されていない言語の出力にどのように影響するかを調査します。
その単純さにもかかわらず、私たちの経験的分析は、私たちの方法がMT5やGPT-4Oなどのモデルで顕著な有効性を示しており、攻撃の成功率が高いことを示しており、さまざまなシナリオで12の言語のうち7つ以上で90%を超えています。
また、私たちの調査結果は、より強力なモデルが移転可能な横断的バックドア攻撃に対する感受性の増加を示していることを示しています。これは、LLAMA2、LLAMA3、GEMMAなどの英語データで主に事前に訓練されたLLMにも適用されます。
さらに、我々の実験は1)高い転送可能性:バックドアメカニズムは、26の言語で横断的応答シナリオで正常に動作し、平均攻撃成功率は99%、2)堅牢性を達成します。
これらの調査結果は、多言語LLMの重要なセキュリティの脆弱性を明らかにし、横断的なバックドア転送によってもたらされる独自の課題に対処するために、より堅牢でターゲットを絞った防衛戦略の緊急の必要性を強調しています。

要約(オリジナル)

The implications of backdoor attacks on English-centric large language models (LLMs) have been widely examined – such attacks can be achieved by embedding malicious behaviors during training and activated under specific conditions that trigger malicious outputs. Despite the increasing support for multilingual capabilities in open-source and proprietary LLMs, the impact of backdoor attacks on these systems remains largely under-explored. Our research focuses on cross-lingual backdoor attacks against multilingual LLMs, particularly investigating how poisoning the instruction-tuning data for one or two languages can affect the outputs for languages whose instruction-tuning data were not poisoned. Despite its simplicity, our empirical analysis reveals that our method exhibits remarkable efficacy in models like mT5 and GPT-4o, with high attack success rates, surpassing 90% in more than 7 out of 12 languages across various scenarios. Our findings also indicate that more powerful models show increased susceptibility to transferable cross-lingual backdoor attacks, which also applies to LLMs predominantly pre-trained on English data, such as Llama2, Llama3, and Gemma. Moreover, our experiments demonstrate 1) High Transferability: the backdoor mechanism operates successfully in cross-lingual response scenarios across 26 languages, achieving an average attack success rate of 99%, and 2) Robustness: the proposed attack remains effective even after defenses are applied. These findings expose critical security vulnerabilities in multilingual LLMs and highlight the urgent need for more robust, targeted defense strategies to address the unique challenges posed by cross-lingual backdoor transfer.

arxiv情報

著者 Xuanli He,Jun Wang,Qiongkai Xu,Pasquale Minervini,Pontus Stenetorp,Benjamin I. P. Rubinstein,Trevor Cohn
発行日 2025-03-17 10:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning はコメントを受け付けていません