Optimizing Posterior Samples for Bayesian Optimization via Rootfinding

要約

Bayesian Optimizationは、一連の取得関数のグローバルな最適化に費用のかかる目標関数のグローバルな最適化を委ねます。
この内部ループの最適化は、特に高次元で後部のサンプル経路を伴う場合、壊滅的に困難になる可能性があります。
グローバルルートファインディングに基づいて、事後サンプルの効率的なグローバル最適化戦略を導入します。
グラデーションベースのオプティマザーに、探索と搾取を組み合わせたように設計された2セットの慎重に選択された出発点を提供します。
出発点の数は、最適化の品質を犠牲にすることなく、小さく保つことができます。
驚くべきことに、各セットから1ポイントだけであっても、ほとんどの場合、グローバルな最適が発見されます。
アルゴリズムは実質的に高次元に尺度でスケーリングし、次元の呪いを破ります。
Gaussian Process Thompson Sampling(GP-TS)では、ほとんどの場合、EIやGP-UCBなどの驚くほど優れた代替案を驚くほど上回る内部と外側のループ最適化の両方の顕著な改善を示しています。
また、私たちのアプローチは、エントロピー検索のバリエーションなど、他の後部サンプルベースの取得機能のパフォーマンスを改善します。
さらに、GP-TSのサンプル平均定式化を提案します。GP-TSは、搾取を明示的に制御するパラメーターを持ち、1つの事後サンプルのコストで計算できます。
実装はhttps://github.com/uquh/tsrootsで入手できます。

要約(オリジナル)

Bayesian optimization devolves the global optimization of a costly objective function to the global optimization of a sequence of acquisition functions. This inner-loop optimization can be catastrophically difficult if it involves posterior sample paths, especially in higher dimensions. We introduce an efficient global optimization strategy for posterior samples based on global rootfinding. It provides gradient-based optimizers with two sets of judiciously selected starting points, designed to combine exploration and exploitation. The number of starting points can be kept small without sacrificing optimization quality. Remarkably, even with just one point from each set, the global optimum is discovered most of the time. The algorithm scales practically linearly to high dimensions, breaking the curse of dimensionality. For Gaussian process Thompson sampling (GP-TS), we demonstrate remarkable improvement in both inner- and outer-loop optimization, surprisingly outperforming alternatives like EI and GP-UCB in most cases. Our approach also improves the performance of other posterior sample-based acquisition functions, such as variants of entropy search. Furthermore, we propose a sample-average formulation of GP-TS, which has a parameter to explicitly control exploitation and can be computed at the cost of one posterior sample. Our implementation is available at https://github.com/UQUH/TSRoots .

arxiv情報

著者 Taiwo A. Adebiyi,Bach Do,Ruda Zhang
発行日 2025-04-01 15:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Optimizing Posterior Samples for Bayesian Optimization via Rootfinding はコメントを受け付けていません

Optimal generalisation and learning transition in extensive-width shallow neural networks near interpolation

要約

幅$ k $と入力寸法$ d $が大きく比例している完全に訓練された2層ニューラルネットワークを使用した監視された学習の教師と学生のモデルを検討します。
サンプルサイズのレジーム$ n $スケーリング、つまり、トレーニング可能なパラメーター$ kd+k $の数とデータ$ n $の数が同等の補間のしきい値を使用して、サンプルサイズ$ n $スケーリングの任意の活性化関数について、ネットワークのベイズ最適化誤差を近似するための効果的な理論を提供します。
私たちの分析は、一般的な重量分布に取り組んでいます。
「普遍的な」フェーズを「専門化」フェーズから分離する不連続な位相遷移を明らかにします。
1つ目は、一般化エラーは重量分布とは無関係であり、サンプリングレート$ n/d^2 $でゆっくりと減衰し、生徒は教師の重量の非線形組み合わせのみを学習します。
後者では、エラーは重量分布依存性であり、教師ネットワークへの生徒のアラインメントにより、より速く減衰します。
したがって、補間近くの高度に予測されるソリューションの存在を発表しますが、実際のアルゴリズムでは見つけるのは潜在的には困難です。

要約(オリジナル)

We consider a teacher-student model of supervised learning with a fully-trained two-layer neural network whose width $k$ and input dimension $d$ are large and proportional. We provide an effective theory for approximating the Bayes-optimal generalisation error of the network for any activation function in the regime of sample size $n$ scaling quadratically with the input dimension, i.e., around the interpolation threshold where the number of trainable parameters $kd+k$ and of data $n$ are comparable. Our analysis tackles generic weight distributions. We uncover a discontinuous phase transition separating a ‘universal’ phase from a ‘specialisation’ phase. In the first, the generalisation error is independent of the weight distribution and decays slowly with the sampling rate $n/d^2$, with the student learning only some non-linear combinations of the teacher weights. In the latter, the error is weight distribution-dependent and decays faster due to the alignment of the student towards the teacher network. We thus unveil the existence of a highly predictive solution near interpolation, which is however potentially hard to find by practical algorithms.

arxiv情報

著者 Jean Barbier,Francesco Camilli,Minh-Toan Nguyen,Mauro Pastore,Rudy Skerk
発行日 2025-04-01 16:32:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.IT, cs.LG, math.IT, stat.ML | Optimal generalisation and learning transition in extensive-width shallow neural networks near interpolation はコメントを受け付けていません

Identifying Predictions That Influence the Future: Detecting Performative Concept Drift in Data Streams

要約

概念ドリフトは、ストリーム学習のコンテキスト内で広く研究されています。
ただし、展開されたモデルの予測は、システムが経験するコンセプトがドリフトする役割を果たさないとしばしば想定されています。
綿密な検査により、これは必ずしもそうではないことが明らかになりました。
自動取引は、自己実現フィードバックループの傾向がある場合があります。
同様に、悪意のあるエンティティは、敵対的な設定で検出器を回避するために適応する可能性があり、その結果、展開されたモデルが絶えず再訓練する必要がある自己挿入フィードバックループが生じます。
モデルが概念ドリフトを誘導する可能性のあるこのような設定は、パフォーマンスと呼ばれます。
この作業では、この現象を調査します。
私たちの貢献は次のとおりです。まず、ストリーム学習設定内でパフォーマンスドリフトを定義し、ドリフトの他の原因と区別します。
データストリームの潜在的なパフォーマンスの概念ドリフトを特定することを目的とした、新しいタイプのドリフト検出タスクを紹介します。
チェッカーボードパフォーマンスドリフト検出(CB-PDD)と呼ばれる最初のそのようなパフォーマンスドリフト検出アプローチを提案します。
CB-PDDは、さまざまな程度の自己実現フィードバックループを示す合成データセットと半合成データセットの両方に適用します。
結果は、CB-PDDが高い有効性、誤検出率の低さ、内発生物のドリフトに対する回復力、他のドリフト検出技術との比較可能性、および半合成データセットのパフォーマンスドリフトを効果的に検出する能力を示しています。
第二に、性能ドリフトを難読化する際に内因性(従来の)ドリフトが果たす役割を強調し、これらの発見の意味とCB-PDDの制限について議論します。

要約(オリジナル)

Concept Drift has been extensively studied within the context of Stream Learning. However, it is often assumed that the deployed model’s predictions play no role in the concept drift the system experiences. Closer inspection reveals that this is not always the case. Automated trading might be prone to self-fulfilling feedback loops. Likewise, malicious entities might adapt to evade detectors in the adversarial setting resulting in a self-negating feedback loop that requires the deployed models to constantly retrain. Such settings where a model may induce concept drift are called performative. In this work, we investigate this phenomenon. Our contributions are as follows: First, we define performative drift within a stream learning setting and distinguish it from other causes of drift. We introduce a novel type of drift detection task, aimed at identifying potential performative concept drift in data streams. We propose a first such performative drift detection approach, called CheckerBoard Performative Drift Detection (CB-PDD). We apply CB-PDD to both synthetic and semi-synthetic datasets that exhibit varying degrees of self-fulfilling feedback loops. Results are positive with CB-PDD showing high efficacy, low false detection rates, resilience to intrinsic drift, comparability to other drift detection techniques, and an ability to effectively detect performative drift in semi-synthetic datasets. Secondly, we highlight the role intrinsic (traditional) drift plays in obfuscating performative drift and discuss the implications of these findings as well as the limitations of CB-PDD.

arxiv情報

著者 Brandon Gower-Winter,Georg Krempl,Sergey Dragomiretskiy,Tineke Jelsma,Arno Siebes
発行日 2025-04-01 16:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML | Identifying Predictions That Influence the Future: Detecting Performative Concept Drift in Data Streams はコメントを受け付けていません

Large-Scale Multi-omic Biosequence Transformers for Modeling Protein-Nucleic Acid Interactions

要約

トランスアーキテクチャは、生体分子の特性の理解と予測のバイオインフォマティクスと駆動型の進歩に革命をもたらしました。
大規模な生体性向上トランスに関するほとんどすべての研究は、一度に1つのドメイン(単一OMIC)、通常はDNA/RNAまたはタンパク質に焦点を当てています。
これらのモデルは、各ドメインのダウンストリームタスクで信じられないほどの成功を収めており、シーケンスモデリングと構造モデリングで特に注目に値するブレークスルーを達成しました。
ただし、これらの単一OMICモデルは、マルチOMICタスクを効率的にモデル化することは自然にできません。これは、最も生物学的に重要なタンパク質核酸相互作用の1つです。
これまでで最大のオープンソースマルチオミックファンデーションモデルである作業トレーニングを紹介します。
これらのマルチオミックモデル(MOM)は、非標識生物の外生物のみで訓練されているにもかかわらず、分子生物学の中心的な教義と緊急に一致するさまざまな単一OMIC分布の間の共同表現を学ぶことができることを示しています。
さらに、MOMがタンパク質核酸相互作用タスクの最新結果を達成するために微調整できることを実証します。つまり、特定の核酸とタンパク質間の結合相互作用のギブス自由エネルギー($ \ delta G $)の変化を予測します。
驚くべきことに、マルチオミカスの生体量変圧器は、\ textit {a priori}構造トレーニングなしで有用な構造情報を緊急に学習し、どのタンパク質残基がタンパク質核酸酸結合相互作用に最も関与しているかを予測できることを示しています。
最後に、マルチオミカスの生物質モデルは、多くの場合、フロップあたりのパフォーマンスと絶対パフォーマンスの両方で、シングルオミクス分布で訓練された基礎モデルよりも優れているという証拠を提供します。

要約(オリジナル)

The transformer architecture has revolutionized bioinformatics and driven progress in the understanding and prediction of the properties of biomolecules. Almost all research on large-scale biosequence transformers has focused on one domain at a time (single-omic), usually DNA/RNA or proteins. These models have seen incredible success in downstream tasks in each domain, and have achieved particularly noteworthy breakthroughs in sequence modeling and structural modeling. However, these single-omic models are naturally incapable of efficiently modeling multi-omic tasks, one of the most biologically critical being protein-nucleic acid interactions. We present our work training the largest open-source multi-omic foundation model to date. We show that these multi-omic models (MOMs) can learn joint representations between various single-omic distributions that are emergently consistent with the Central Dogma of molecular biology despite only being trained on unlabeled biosequences. We further demonstrate that MOMs can be fine-tuned to achieve state-of-the-art results on protein-nucleic acid interaction tasks, namely predicting the change in Gibbs free energy ($\Delta G$) of the binding interaction between a given nucleic acid and protein. Remarkably, we show that multi-omic biosequence transformers emergently learn useful structural information without any \textit{a priori} structural training, allowing us to predict which protein residues are most involved in the protein-nucleic acid binding interaction. Lastly, we provide evidence that multi-omic biosequence models are in many cases superior to foundation models trained on single-omics distributions, both in performance-per-FLOP and absolute performance, suggesting a more generalized or foundational approach to building these models for biology.

arxiv情報

著者 Sully F. Chen,Robert J. Steele,Glen M. Hocky,Beakal Lemeneh,Shivanand P. Lad,Eric K. Oermann
発行日 2025-04-01 17:10:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM | Large-Scale Multi-omic Biosequence Transformers for Modeling Protein-Nucleic Acid Interactions はコメントを受け付けていません

Scalable Mechanistic Neural Networks for Differential Equations and Machine Learning

要約

スケーラブルな機械的ニューラルネットワーク(S-MNN)を提案します。これは、長い時間シーケンスを含む科学機械学習アプリケーション向けに設計された強化されたニューラルネットワークフレームワークです。
元の機械的ニューラルネットワーク(MNN)(Pervez et al。、2024)を再定式化することにより、それぞれシーケンスの長さに対して、立方および二次から線形までの計算時間と空間の複雑さを減らします。
この大幅な改善により、精度や解釈可能性を犠牲にすることなく、長期的なダイナミクスの効率的なモデリングが可能になります。
広範な実験では、S-MNNが元のMNNと精度を一致させながら、計算リソースを大幅に削減することが示されています。
その結果、S-MNNはアプリケーションで元のMNNをドロップインすることができ、機械的なボトルネックを複雑な動的システムのニューラルネットワークモデルに統合するための実用的で効率的なツールを提供します。
ソースコードは、https://github.com/ist-daslab/scalablemnnで入手できます。

要約(オリジナル)

We propose Scalable Mechanistic Neural Network (S-MNN), an enhanced neural network framework designed for scientific machine learning applications involving long temporal sequences. By reformulating the original Mechanistic Neural Network (MNN) (Pervez et al., 2024), we reduce the computational time and space complexities from cubic and quadratic with respect to the sequence length, respectively, to linear. This significant improvement enables efficient modeling of long-term dynamics without sacrificing accuracy or interpretability. Extensive experiments demonstrate that S-MNN matches the original MNN in precision while substantially reducing computational resources. Consequently, S-MNN can drop-in replace the original MNN in applications, providing a practical and efficient tool for integrating mechanistic bottlenecks into neural network models of complex dynamical systems. Source code is available at https://github.com/IST-DASLab/ScalableMNN.

arxiv情報

著者 Jiale Chen,Dingling Yao,Adeel Pervez,Dan Alistarh,Francesco Locatello
発行日 2025-04-01 17:36:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Scalable Mechanistic Neural Networks for Differential Equations and Machine Learning はコメントを受け付けていません

Low-Rank Thinning

要約

薄くなる目標は、小さなポイントの小さなセットを使用してデータセットを要約することです。
驚くべきことに、カーネルの半分や圧縮などのガウス薄薄化アルゴリズムは、均一なサブサンプリングの品質と一致し、要約ポイントの数を大幅に減らします。
ただし、既存の保証は、制限された分布範囲とカーネルベースの品質測定のみをカバーし、悲観的な次元依存性に苦しんでいます。
これらの欠陥に対処するために、カーネルまたはデータマトリックスがほぼ低ランクである場合はいつでも高品質の圧縮を保証する、分布およびカーネルに適用されるサブガウス薄化の新しい低ランク分析を導入します。
技術の幅広い適用性を実証するために、トランスの注意を近似し、並べ替えによる確率勾配トレーニングを加速するための最もよく知られている保証を改善する実用的なサブガウス薄化アプローチを設計し、直線的な時間における分布を区別します。

要約(オリジナル)

The goal in thinning is to summarize a dataset using a small set of representative points. Remarkably, sub-Gaussian thinning algorithms like Kernel Halving and Compress can match the quality of uniform subsampling while substantially reducing the number of summary points. However, existing guarantees cover only a restricted range of distributions and kernel-based quality measures and suffer from pessimistic dimension dependence. To address these deficiencies, we introduce a new low-rank analysis of sub-Gaussian thinning that applies to any distribution and any kernel, guaranteeing high-quality compression whenever the kernel or data matrix is approximately low-rank. To demonstrate the broad applicability of the techniques, we design practical sub-Gaussian thinning approaches that improve upon the best known guarantees for approximating attention in transformers, accelerating stochastic gradient training through reordering, and distinguishing distributions in near-linear time.

arxiv情報

著者 Annabelle Michael Carrell,Albert Gong,Abhishek Shetty,Raaz Dwivedi,Lester Mackey
発行日 2025-04-01 17:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.ST, stat.ME, stat.ML, stat.TH | Low-Rank Thinning はコメントを受け付けていません

Can Zero-Shot Commercial APIs Deliver Regulatory-Grade Clinical Text DeIdentification?

要約

非構造化された医療テキスト – Azure Health Data Services、AWS Grehend Medical、Openai GPT -4o、およびJohn Snow Labsの脱同意のための4つの主要なソリューションのパフォーマンスを評価します。
エンティティレベルとトークンレベルの両方で実施さ​​れた分析は、John Snow Labsの医療言語モデルソリューションが最高の精度を達成することを示唆しており、保護された健康情報(PHI)の検出、AWS(91%)、AWS(83%)、およびGPT-4O(79%)の96%F1スコアがあります。
ジョン・スノー・ラボは、規制グレードの精度を達成する唯一のソリューション(人間の専門家の精度を上回る)だけでなく、最も費用対効果の高いソリューションでもあります。AzureとGPT-4oと比較して80%を超えており、トークンによって価格の唯一のソリューションです。
その固定コストのローカル展開モデルは、クラウドベースのサービスのリクエストごとのエスカレート料金を回避し、スケーラブルで経済的な選択になります。

要約(オリジナル)

We evaluate the performance of four leading solutions for de-identification of unstructured medical text – Azure Health Data Services, AWS Comprehend Medical, OpenAI GPT-4o, and John Snow Labs – on a ground truth dataset of 48 clinical documents annotated by medical experts. The analysis, conducted at both entity-level and token-level, suggests that John Snow Labs’ Medical Language Models solution achieves the highest accuracy, with a 96% F1-score in protected health information (PHI) detection, outperforming Azure (91%), AWS (83%), and GPT-4o (79%). John Snow Labs is not only the only solution which achieves regulatory-grade accuracy (surpassing that of human experts) but is also the most cost-effective solution: It is over 80% cheaper compared to Azure and GPT-4o, and is the only solution not priced by token. Its fixed-cost local deployment model avoids the escalating per-request fees of cloud-based services, making it a scalable and economical choice.

arxiv情報

著者 Veysel Kocaman,Muhammed Santas,Yigit Gul,Mehmet Butgul,David Talby
発行日 2025-03-31 19:44:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.IR, cs.LG, F.2.2 | Can Zero-Shot Commercial APIs Deliver Regulatory-Grade Clinical Text DeIdentification? はコメントを受け付けていません

An Annotated Dataset of Errors in Premodern Greek and Baselines for Detecting Them

要約

世紀前のテキストが何世紀にもわたって受け継がれると、エラーは必然的に発生します。
これらのエラーは、識別するのが難しい場合があります。一部のエラーは、非常にとらえどころのないという理由で、まさに長い間検出されていないためです。
以前の作業では、人為的に生成されたエラーに関するエラー検出方法を評価していますが、プレアマンギリシャ語の実際のエラーの最初のデータセットを導入し、何世紀にもわたるコピープロセスである段階で真に蓄積されたエラーに関するエラー検出方法の評価を可能にします。
このデータセットを作成するために、BERT条件から派生したメトリックを使用して、エラーを含む可能性が高い1,000語をサンプリングします。これには、ドメインの専門家によってエラーとラベル付けされます。
次に、新しいエラー検出方法を提案して評価し、差別因子ベースの検出器が他のすべての方法を上回り、実際のエラーを5%分類するための真の正のレートを改善することがわかります。
さらに、スクリバルエラーは、印刷またはデジタル化エラーよりも検出が困難であることがわかります。
データセットを使用すると、前近代テキストの実際のエラーに関するエラー検出方法の評価を初めて使用でき、より効果的なエラー検出アルゴリズムを開発するためのベンチマークを提供して、学者が前近代作業の復元を支援します。

要約(オリジナル)

As premodern texts are passed down over centuries, errors inevitably accrue. These errors can be challenging to identify, as some have survived undetected for so long precisely because they are so elusive. While prior work has evaluated error detection methods on artificially-generated errors, we introduce the first dataset of real errors in premodern Greek, enabling the evaluation of error detection methods on errors that genuinely accumulated at some stage in the centuries-long copying process. To create this dataset, we use metrics derived from BERT conditionals to sample 1,000 words more likely to contain errors, which are then annotated and labeled by a domain expert as errors or not. We then propose and evaluate new error detection methods and find that our discriminator-based detector outperforms all other methods, improving the true positive rate for classifying real errors by 5%. We additionally observe that scribal errors are more difficult to detect than print or digitization errors. Our dataset enables the evaluation of error detection methods on real errors in premodern texts for the first time, providing a benchmark for developing more effective error detection algorithms to assist scholars in restoring premodern works.

arxiv情報

著者 Creston Brooks,Johannes Haubold,Charlie Cowen-Breen,Jay White,Desmond DeVaul,Frederick Riemenschneider,Karthik Narasimhan,Barbara Graziosi
発行日 2025-03-31 20:00:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | An Annotated Dataset of Errors in Premodern Greek and Baselines for Detecting Them はコメントを受け付けていません

Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning

要約

スパース自動エンコーダー(SAE)は、ネットワークの内部アクティベーションのまばらで過剰な分解を学習することにより、ニューラルネットワーク表現を抽出するための有望なアプローチです。
ただし、SAEは伝統的にアクティベーション値のみを考慮して訓練されており、これらのアクティベーションが下流の計算に与える影響ではありません。
これにより、機能を学習するために利用可能な情報が制限され、アクティベーション値が小さく、モデル出力に強く影響する機能を無視することに自動エンコーダーにバイアスをかけます。
これに対処するために、$ K $要素を選択するときに入力アクティベーションの勾配に依存するようにTOPKアクティベーション関数を増強することにより、$ K $ -SPARSEオートエンコーダーアーキテクチャを変更するグラデーションSAE(G-SAES)を導入します。
特定のスパースレベルでは、G-SAESは、ネットワークを介して伝播すると、元のネットワークパフォーマンスにより忠実な再構成を生成します。
さらに、G-saesが任意のコンテキストでのステアリングモデルで平均してより効果的な潜在性を学習するという証拠が見つかります。
アクティベーションのダウンストリーム効果を考慮することにより、私たちのアプローチは、ニューラルネットワーク機能の二重の性質を、$ \ textit {sperplations} $、retrospectivilly、および$ \ textit {actions} $として前向きに活用します。
以前の方法は、主に前の側面に焦点を当てた機能の発見の問題に近づいてきましたが、G-Saesも後者の会計に向けたステップを表しています。

要約(オリジナル)

Sparse Autoencoders (SAEs) are a promising approach for extracting neural network representations by learning a sparse and overcomplete decomposition of the network’s internal activations. However, SAEs are traditionally trained considering only activation values and not the effect those activations have on downstream computations. This limits the information available to learn features, and biases the autoencoder towards neglecting features which are represented with small activation values but strongly influence model outputs. To address this, we introduce Gradient SAEs (g-SAEs), which modify the $k$-sparse autoencoder architecture by augmenting the TopK activation function to rely on the gradients of the input activation when selecting the $k$ elements. For a given sparsity level, g-SAEs produce reconstructions that are more faithful to original network performance when propagated through the network. Additionally, we find evidence that g-SAEs learn latents that are on average more effective at steering models in arbitrary contexts. By considering the downstream effects of activations, our approach leverages the dual nature of neural network features as both $\textit{representations}$, retrospectively, and $\textit{actions}$, prospectively. While previous methods have approached the problem of feature discovery primarily focused on the former aspect, g-SAEs represent a step towards accounting for the latter as well.

arxiv情報

著者 Jeffrey Olmo,Jared Wilson,Max Forsey,Bryce Hepner,Thomas Vin Howe,David Wingate
発行日 2025-03-31 20:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning はコメントを受け付けていません

Eliminating Position Bias of Language Models: A Mechanistic Approach

要約

位置バイアスは、モデルが指定されたコンテキスト内での位置に基づいてコンテンツに優先順位を付ける現代言​​語モデル(LMS)の一般的な問題であることが証明されています。
このバイアスは、多くの場合、予期しないモデルの障害につながり、さまざまなアプリケーションでパフォーマンス、堅牢性、信頼性を損ないます。
当社のメカニズム分析は、位置バイアスを、ほぼすべての最先端のLMSで採用した2つのコンポーネント、因果関係と相対的な位置エンコーディングに起因します。
分析に基づいて、トレーニングなしのゼロショットアプローチで位置バイアス(QAの異なるドキュメントの注文がパフォーマンスに影響する)を排除することを提案します。
私たちの方法は、ドキュメント間の双方向の注意への因果関係を変更し、モデルの注意値を利用して、入力プロンプトで提供される順序を使用する代わりに、ドキュメントの相対的な順序を決定するため、ドキュメントレベルで位置不変性推論(パイン)を可能にします。
位置バイアスを排除することにより、モデルは、LM-As-a-a-a-augmented QA、分子生成、数学の推論など、下流タスクのパフォーマンスと信頼性を向上させます。
特に、Pineは、推論ペアを評価するためにLMSを適応させる場合に特に役立ちます。これは、一貫して8〜10パーセントポイントのパフォーマンスを提供し、Llama-3-70B-InstructのパフォーマンスがGPT-4-0125-PREVIEWおよびGPT-4O-2024-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08-08.

要約(オリジナル)

Position bias has proven to be a prevalent issue of modern language models (LMs), where the models prioritize content based on its position within the given context. This bias often leads to unexpected model failures and hurts performance, robustness, and reliability across various applications. Our mechanistic analysis attributes the position bias to two components employed in nearly all state-of-the-art LMs: causal attention and relative positional encodings. Based on the analyses, we propose to eliminate position bias (e.g., different retrieved documents’ orders in QA affect performance) with a training-free zero-shot approach. Our method changes the causal attention to bidirectional attention between documents and utilizes model attention values to decide the relative orders of documents instead of using the order provided in input prompts, therefore enabling Position-INvariant inferencE (PINE) at the document level. By eliminating position bias, models achieve better performance and reliability in downstream tasks, including LM-as-a-judge, retrieval-augmented QA, molecule generation, and math reasoning. Notably, PINE is especially useful when adapting LMs for evaluating reasoning pairs: it consistently provides 8 to 10 percentage points performance gains, making Llama-3-70B-Instruct perform even better than GPT-4-0125-preview and GPT-4o-2024-08-06 on the RewardBench reasoning set.

arxiv情報

著者 Ziqi Wang,Hanlin Zhang,Xiner Li,Kuan-Hao Huang,Chi Han,Shuiwang Ji,Sham M. Kakade,Hao Peng,Heng Ji
発行日 2025-03-31 20:37:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Eliminating Position Bias of Language Models: A Mechanistic Approach はコメントを受け付けていません