Removing Neural Signal Artifacts with Autoencoder-Targeted Adversarial Transformers (AT-AT)

要約

筋電子生殖(EMG)ノイズは、脳特有の神経活動の正確な分析を妨げる可能性のあるEEGデータの主要な汚染源です。
EMGアーティファクトの除去に関する最近の文献は、機械学習ベースのシステムを支持して、従来の線形アルゴリズムを超えて移動しました。
ただし、既存の深い学習ベースのろ過方法には、多くの場合、大規模なコンピューティングフットプリントがあり、非常に長いトレーニング時間があります。
この研究では、自動エンコーダーをターゲットにした敵対的な変圧器(AT-AT)を使用して、EEGデータからのEMG干渉をフィルタリングするための新しい機械学習ベースのシステムを提示します。
自動エンコーダーの軽量表現力を活用して最適な時系列トランスアプリケーションサイトを決定することにより、当社のAT-ATアーキテクチャは、公開されたアーティファクト除去モデルと比較して、90%以上のモデルサイズ削減を実現します。
敵対的なトレーニングを追加することで、フィルタリングされた信号がEEGデータの基本的な特性に準拠することが保証されます。
67人の被験者から公開されたニューラルデータを使用してAT-ATをトレーニングし、システムがより大きなモデルに同等のテストパフォーマンスを達成できることを発見しました。
AT-ATは、-7 dB SNRで2 dB、0.70の初期信号対雑音比(SNR)で0.95を超える平均再構成相関係数を示しました。
これらの結果をこれらの孤立したテストケースを超えてより広いサンプルサイズに一般化するさらなる研究が重要です。
この研究の範囲外では、付録のAT-ATの実際の展開の結果も含めます。

要約(オリジナル)

Electromyogenic (EMG) noise is a major contamination source in EEG data that can impede accurate analysis of brain-specific neural activity. Recent literature on EMG artifact removal has moved beyond traditional linear algorithms in favor of machine learning-based systems. However, existing deep learning-based filtration methods often have large compute footprints and prohibitively long training times. In this study, we present a new machine learning-based system for filtering EMG interference from EEG data using an autoencoder-targeted adversarial transformer (AT-AT). By leveraging the lightweight expressivity of an autoencoder to determine optimal time-series transformer application sites, our AT-AT architecture achieves a >90% model size reduction compared to published artifact removal models. The addition of adversarial training ensures that filtered signals adhere to the fundamental characteristics of EEG data. We trained AT-AT using published neural data from 67 subjects and found that the system was able to achieve comparable test performance to larger models; AT-AT posted a mean reconstructive correlation coefficient above 0.95 at an initial signal-to-noise ratio (SNR) of 2 dB and 0.70 at -7 dB SNR. Further research generalizing these results to broader sample sizes beyond these isolated test cases will be crucial; while outside the scope of this study, we also include results from a real-world deployment of AT-AT in the Appendix.

arxiv情報

著者 Benjamin J. Choi
発行日 2025-02-27 18:31:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Removing Neural Signal Artifacts with Autoencoder-Targeted Adversarial Transformers (AT-AT) はコメントを受け付けていません

Applying Deep Learning to Ads Conversion Prediction in Last Mile Delivery Marketplace

要約

Deep Neural Networks(DNNS)は、Webスケールのランキングシステムに革命をもたらし、複雑なユーザー行動をキャプチャし、パフォーマンスの向上を促進することを可能にします。
Doordashでは、ホームページ広告ランキングシステムを従来のツリーベースのモデルから最先端のマルチタスクDNNに移行することにより、最初にこの変革力を活用しました。
この進化は、データの基礎、モデル設計、トレーニング効率、評価の厳密さ、オンラインサービングの進歩を引き起こし、実質的なビジネスへの影響を提供し、機械学習へのアプローチを再構築しました。
この論文では、私たちの問題主導の旅について、適切な問題を特定し、ターゲットを絞ったソリューションの作成から、深い学習推奨システムの開発とスケーリングの複雑さを克服することまで説明します。
私たちの成功と学んだ教訓を通して、私たちは機械学習システムの同様の進歩を追求するチームに対する洞察と実用的なガイダンスを共有することを目指しています。

要約(オリジナル)

Deep neural networks (DNNs) have revolutionized web-scale ranking systems, enabling breakthroughs in capturing complex user behaviors and driving performance gains. At DoorDash, we first harnessed this transformative power by transitioning our homepage Ads ranking system from traditional tree based models to cutting edge multi task DNNs. This evolution sparked advancements in data foundations, model design, training efficiency, evaluation rigor, and online serving, delivering substantial business impact and reshaping our approach to machine learning. In this paper, we talk about our problem driven journey, from identifying the right problems and crafting targeted solutions to overcoming the complexity of developing and scaling a deep learning recommendation system. Through our successes and learned lessons, we aim to share insights and practical guidance to teams pursuing similar advancements in machine learning systems.

arxiv情報

著者 Di Li,Xiaochang Miao,Huiyu Song,Chao Chu,Hao Xu,Mandar Rahurkar
発行日 2025-02-27 18:32:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Applying Deep Learning to Ads Conversion Prediction in Last Mile Delivery Marketplace はコメントを受け付けていません

Global Framework for Simultaneous Emulation Across the Nuclear Landscape

要約

AB initioの多体計算とベイジアンニューラルネットワークを組み合わせた階層的なフレームワークを紹介し、複数の同位体を含む核チャート全体で核特性を正確に予測できるエミュレーターを開発します。
酸素同位体鎖を使用して開発をベンチマークし、地上のエネルギーと核電荷半径の正確な結果を達成しながら、堅牢な不確実性の定量化を提供します。
私たちのフレームワークにより、核結合エネルギーのグローバルな感度分析が可能になり、核力を記述する低エネルギー定数に関して半径を電荷します。

要約(オリジナル)

We introduce a hierarchical framework that combines ab initio many-body calculations with a Bayesian neural network, developing emulators capable of accurately predicting nuclear properties across the nuclear chart, including multiple isotopes simultaneously. We benchmark our developments using the oxygen isotopic chain, achieving accurate results for ground-state energies and nuclear charge radii, while providing robust uncertainty quantification. Our framework enables global sensitivity analysis of nuclear binding energies and charge radii with respect to the low-energy constants that describe the nuclear force.

arxiv情報

著者 Antoine Belley,Jose M. Munoz,Ronald F. Garcia Ruiz
発行日 2025-02-27 18:34:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, nucl-th | Global Framework for Simultaneous Emulation Across the Nuclear Landscape はコメントを受け付けていません

Constrained Generative Modeling with Manually Bridged Diffusion Models

要約

このホワイトペーパーでは、制約されたスペース上の拡散ベースの生成モデリングのための新しいフレームワークについて説明します。
特に、いわゆる拡散橋を形成するために実際に使用できる制約の種類を拡張するフレームワークであるマニュアルブリッジを紹介します。
結果として得られる増加モデルがすべての制約を尊重する手動ブリッジのままであるように、複数のそのような制約を組み合わせるメカニズムを開発します。
また、このような複数の制約を尊重しながら、データ分布に合わせて適応する拡散モデルをトレーニングするメカニズムを開発します。
メカニズムの数学的妥当性を示す理論を開発および拡張します。
さらに、制約された生成モデリングタスクにおけるメカニズムを実証し、自律車両のパス計画と制御のための軌跡の初期化のモデリングにおける特定の高価値アプリケーションを強調します。

要約(オリジナル)

In this paper we describe a novel framework for diffusion-based generative modeling on constrained spaces. In particular, we introduce manual bridges, a framework that expands the kinds of constraints that can be practically used to form so-called diffusion bridges. We develop a mechanism for combining multiple such constraints so that the resulting multiply-constrained model remains a manual bridge that respects all constraints. We also develop a mechanism for training a diffusion model that respects such multiple constraints while also adapting it to match a data distribution. We develop and extend theory demonstrating the mathematical validity of our mechanisms. Additionally, we demonstrate our mechanism in constrained generative modeling tasks, highlighting a particular high-value application in modeling trajectory initializations for path planning and control in autonomous vehicles.

arxiv情報

著者 Saeid Naderiparizi,Xiaoxuan Liang,Berend Zwartsenberg,Frank Wood
発行日 2025-02-27 18:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Constrained Generative Modeling with Manually Bridged Diffusion Models はコメントを受け付けていません

High-dimensional Analysis of Knowledge Distillation: Weak-to-Strong Generalization and Scaling Laws

要約

ますます多くの機械学習シナリオは、ターゲットモデルのトレーニングを監督するためにラベルとしてサロゲートモデルの出力を使用する知識の蒸留に依存しています。
この作業では、2つの設定の下で、リッジレス、高次元回帰のこのプロセスの鋭い特性評価を提供します。(i)サロゲートモデルが任意のモデルシフト、および(ii)分布シフトで、代理モデルは分配不足データによる経験的リスク最小化の解決策です。
どちらの場合も、軽度の条件下でのサンプルサイズとデータ分布の観点から、非亜鉛法の境界を介してターゲットモデルの正確なリスクを特徴付けます。
結果として、最適な代理モデルの形式を特定します。これは、データ依存性のある方法で弱い機能を破棄することの利点と制限を明らかにします。
弱い(W2S)一般化のコンテキストでは、これには(i)Surrogateを弱いモデルとしてのW2Sトレーニングは、同じデータ予算の下で強力なラベルでトレーニングを上回ることができるという解釈がありますが、(ii)データのスケーリング法を改善できません。
リッジレス回帰とニューラルネットワークアーキテクチャの両方での数値実験の結果を検証します。

要約(オリジナル)

A growing number of machine learning scenarios rely on knowledge distillation where one uses the output of a surrogate model as labels to supervise the training of a target model. In this work, we provide a sharp characterization of this process for ridgeless, high-dimensional regression, under two settings: (i) model shift, where the surrogate model is arbitrary, and (ii) distribution shift, where the surrogate model is the solution of empirical risk minimization with out-of-distribution data. In both cases, we characterize the precise risk of the target model through non-asymptotic bounds in terms of sample size and data distribution under mild conditions. As a consequence, we identify the form of the optimal surrogate model, which reveals the benefits and limitations of discarding weak features in a data-dependent fashion. In the context of weak-to-strong (W2S) generalization, this has the interpretation that (i) W2S training, with the surrogate as the weak model, can provably outperform training with strong labels under the same data budget, but (ii) it is unable to improve the data scaling law. We validate our results on numerical experiments both on ridgeless regression and on neural network architectures.

arxiv情報

著者 M. Emrullah Ildiz,Halil Alperen Gozeten,Ege Onur Taga,Marco Mondelli,Samet Oymak
発行日 2025-02-27 18:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | High-dimensional Analysis of Knowledge Distillation: Weak-to-Strong Generalization and Scaling Laws はコメントを受け付けていません

When does a predictor know its own loss?

要約

予測因子と損失関数が与えられた場合、予測因子が入力で発生する損失をどれだけうまく予測できますか?
これは、予測因子の不確実性推定に関連する重要な計算タスクである損失予測の問題です。
分類設定では、予測因子は通常、ラベル上の分布を予測するため、予測された分布のエントロピーによって与えられた損失の独自の推定値があります。
この見積もりを信頼する必要がありますか?
言い換えれば、予測子はいつそれが知っていることと知らないことを知っていますか?
この作業では、損失予測の理論的基礎を研究します。
私たちの主な貢献は、非自明の損失予測と特定の形式のマルチカルブレーションとの間の厳しい接続を確立することです。これは、計算的に識別可能なサブグループ全体で調整された予測を求めるマルチグループ公平性の概念です。
正式には、予測因子の自己推定を改善できる損失予測因子が、マルチブランド化の失敗に目撃者をもたらし、その逆も同様であることを示します。
これには、非自明の損失予測が事実上、マルチブランド化の監査ほど容易または難しいことはありません。
予測因子のマルチカルブレーションエラーと損失予測因子のトレーニングの有効性との間に堅牢な正の相関を示す実験で、理論的な結果をサポートします。

要約(オリジナル)

Given a predictor and a loss function, how well can we predict the loss that the predictor will incur on an input? This is the problem of loss prediction, a key computational task associated with uncertainty estimation for a predictor. In a classification setting, a predictor will typically predict a distribution over labels and hence have its own estimate of the loss that it will incur, given by the entropy of the predicted distribution. Should we trust this estimate? In other words, when does the predictor know what it knows and what it does not know? In this work we study the theoretical foundations of loss prediction. Our main contribution is to establish tight connections between nontrivial loss prediction and certain forms of multicalibration, a multigroup fairness notion that asks for calibrated predictions across computationally identifiable subgroups. Formally, we show that a loss predictor that is able to improve on the self-estimate of a predictor yields a witness to a failure of multicalibration, and vice versa. This has the implication that nontrivial loss prediction is in effect no easier or harder than auditing for multicalibration. We support our theoretical results with experiments that show a robust positive correlation between the multicalibration error of a predictor and the efficacy of training a loss predictor.

arxiv情報

著者 Aravind Gollakota,Parikshit Gopalan,Aayush Karan,Charlotte Peale,Udi Wieder
発行日 2025-02-27 18:50:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | When does a predictor know its own loss? はコメントを受け付けていません

Scalable Signature Kernel Computations for Long Time Series via Local Neumann Series Expansions

要約

署名カーネルは、その理論的保証と強力な経験的パフォーマンスで評価された高次元のシーケンシャルデータを分析するための最近の最先端のツールです。
この論文では、動的に切り捨てられた再帰ローカルパワーシリーズ拡張を介して、長く高次元の時系列の署名カーネルを効率的に計算するための新しい方法を提示します。
グルサットPDEのソリューションとしての署名カーネルの特性評価に基づいて、私たちのアプローチは、タイルワイズのノイマンシリーズ拡張を採用して、サブドメインで局所的に定義され、時系列を搾取することによりgoursat溶液のドメイン全体に繰り返し繰り返される署名カーネルの迅速に収束するパワーシリーズ近似を導き出します。
アルゴリズム的には、これには、トポロジー順序を介して方向性グラフに沿って境界条件を再帰的に伝播することにより、相互依存のローカルグルサットPDEのシステムを解くことが含まれ、係数が機械の精度を下回る場合に各ローカルパワーシリーズの拡張を適応的に終了し、計算コストと精度の効果的なバランスをとることが含まれます。
この方法は、非常に高い粗さを持つ時系列であっても、(a)調整可能で優れた精度を提供するための署名カーネルを計算するための最先端のアプローチよりも大幅なパフォーマンスの改善を達成します。
(b)メモリ要件が大幅に減少した。
(c)単一のGPUで非常に長い時系列(例えば最大50万ポイント以上)を効率的に処理するスケーラビリティ。
これらの利点は、非常に長く揮発性のデータを含むラフパス支援の機械学習、財務モデリング、および信号処理アプリケーションに特に適しています。

要約(オリジナル)

The signature kernel is a recent state-of-the-art tool for analyzing high-dimensional sequential data, valued for its theoretical guarantees and strong empirical performance. In this paper, we present a novel method for efficiently computing the signature kernel of long, high-dimensional time series via dynamically truncated recursive local power series expansions. Building on the characterization of the signature kernel as the solution of a Goursat PDE, our approach employs tilewise Neumann-series expansions to derive rapidly converging power series approximations of the signature kernel that are locally defined on subdomains and propagated iteratively across the entire domain of the Goursat solution by exploiting the geometry of the time series. Algorithmically, this involves solving a system of interdependent local Goursat PDEs by recursively propagating boundary conditions along a directed graph via topological ordering, with dynamic truncation adaptively terminating each local power series expansion when coefficients fall below machine precision, striking an effective balance between computational cost and accuracy. This method achieves substantial performance improvements over state-of-the-art approaches for computing the signature kernel, providing (a) adjustable and superior accuracy, even for time series with very high roughness; (b) drastically reduced memory requirements; and (c) scalability to efficiently handle very long time series (e.g., with up to half a million points or more) on a single GPU. These advantages make our method particularly well-suited for rough-path-assisted machine learning, financial modeling, and signal processing applications that involve very long and highly volatile data.

arxiv情報

著者 Matthew Tamayo-Rios,Alexander Schell,Rima Alaifari
発行日 2025-02-27 18:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.AP, math.NA | Scalable Signature Kernel Computations for Long Time Series via Local Neumann Series Expansions はコメントを受け付けていません

R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts

要約

大規模なマルチモーダルモデル(LMMS)では、非言語モダリティ(視覚表現など)の認識は、通常、大規模な言語モデル(LLM)の強力な推論能力と同等ではなく、LMMSのパフォーマンスを下流タスクに挑戦することを阻止します。
この弱点は、VisionエンコーダーをExperts(MOE)に置き換えることで最近緩和されました。
マルチモーダルMOEのパフォーマンスは、そのルーターに大きく依存します。このルーターは、各入力の異なる専門家の表現を再重視および混合します。
ただし、エンドツーエンドの訓練されたルーターは、すべてのテストサンプルに最適なルーティングウェイトを常に生成するとは限らないことがわかります。
ギャップを埋めるために、テスト時間のベクトルをテスト時にルーティングウェイトのベクトルを局所的に最適化する斬新で効率的な方法(R2-T2)を提案します。テストサンプルの近傍で正しく予測されたサンプルのベクトルに移動することにより、
さまざまな最適化目標と近隣検索スペースを持つ3つのR2-T2戦略を提案します。
R2-T2は、ベースモデルパラメーターをトレーニングすることなく、多様なタスクの挑戦的なベンチマークで最先端のLMMSのパフォーマンスを一貫して大幅に改善します。

要約(オリジナル)

In large multimodal models (LMMs), the perception of non-language modalities (e.g., visual representations) is usually not on par with the large language models (LLMs)’ powerful reasoning capabilities, deterring LMMs’ performance on challenging downstream tasks. This weakness has been recently mitigated by replacing the vision encoder with a mixture-of-experts (MoE), which provides rich, multi-granularity, and diverse representations required by diverse downstream tasks. The performance of multimodal MoE largely depends on its router, which reweights and mixes the representations of different experts for each input. However, we find that the end-to-end trained router does not always produce the optimal routing weights for every test sample. To bridge the gap, we propose a novel and efficient method ‘Re-Routing in Test-Time(R2-T2) that locally optimizes the vector of routing weights in test-time by moving it toward those vectors of the correctly predicted samples in a neighborhood of the test sample. We propose three R2-T2 strategies with different optimization objectives and neighbor-search spaces. R2-T2 consistently and greatly improves state-of-the-art LMMs’ performance on challenging benchmarks of diverse tasks, without training any base-model parameters.

arxiv情報

著者 Zhongyang Li,Ziyue Li,Tianyi Zhou
発行日 2025-02-27 18:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts はコメントを受け付けていません

SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

要約

主流の問題解決フレームワークは主に商業モデルに依存しており、高コストとプライバシーの懸念につながります。
問題を解決するための既存のトレーニングアプローチは、貧弱な一般化との闘争を解決し、オープンソース開発リソースを完全に活用できません。
LLMSの問題解決能力を強化するための新しいトレーニングアプローチである、サブタスク指向の強化微調整(Sorft)を提案します。
ファイルのローカリゼーション、関数のローカリゼーション、ラインローカリゼーション、およびコード編集生成など、構造化されたサブタスクへの解決の問題を分解します。
Sorftは、2つのトレーニング段階で構成されています:(1)拒絶反応サンプリングされた監視された微調整された思考の連鎖(COT)データは、LLMを微調整する前に地上虚偽を使用してフィルタリングされ、(2)PPOを地上真実ベースの報酬とレバレッジするルールベースの補強学習。
SWEベンチ検証済みおよびSWEベンチライトの魔術訓練モデルを評価し、オープンソースモデルで最先端の(SOTA)性能を達成します(たとえば、SORFT-QWEN-7Bで検証されたSWEベンチの21.4%の問題を解決します)。
実験結果は、魔術が問題解決パフォーマンスを大幅に向上させ、モデルの一般化を改善し、商業モデルに代わる費用効率の高い代替を提供することを示しています。

要約(オリジナル)

Mainstream issue-resolving frameworks predominantly rely on commercial models, leading to high costs and privacy concerns. Existing training approaches for issue resolving struggle with poor generalization and fail to fully leverage open-source development resources. We propose Subtask-oriented Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue resolving capability of LLMs. We decomposes issue resolving into structured subtasks: file localization, function localization, line localization, and code edit generation. SoRFT consists of two training stages: (1) rejection-sampled supervised fine-tuning, Chain of Thought (CoT) data is filtered using ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement learning, which leverages PPO with ground-truth based rewards. We evaluate the SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving state-of-the-art (SOTA) performance among open-source models (e.g., resolve 21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental results demonstrate that SoRFT significantly enhances issue-resolving performance, improves model generalization, and provides a cost-efficient alternative to commercial models.

arxiv情報

著者 Zexiong Ma,Chao Peng,Pengfei Gao,Xiangxin Meng,Yanzhen Zou,Bing Xie
発行日 2025-02-27 14:19:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning はコメントを受け付けていません

Relation Also Knows: Rethinking the Recall and Editing of Factual Associations in Auto-Regressive Transformer Language Models

要約

自動回帰トランス言語モデル(LMS)における事実上の関連性のストレージとリコールは、多大な注目を集め、特定のモデルの重みを直接変更することで知識の編集を刺激します。
ほとんどの編集作品は、主に主題の知識に焦点を当てる知識の既存の解釈のガイダンスの下で知識編集を実現します。
ただし、これらの解釈は深刻な欠陥があり、関係情報を無視し、編集のための過剰なジェネラル化の問題につながります。
この作業では、推論中のトランスLMSの知識リコールを解釈するための新しい関係に焦点を当てた視点を発見し、過剰なジェネラル化を避けるために単一の知識編集に適用します。
新しいR特異性基準を添加したデータセットの実験結果は、編集アプローチが他の基準で競争力を維持しながら、将来の研究のための被験者に焦点を当てた編集の支配を破る一方で、過剰なジェネラル化を軽減することを示しています。

要約(オリジナル)

The storage and recall of factual associations in auto-regressive transformer language models (LMs) have drawn a great deal of attention, inspiring knowledge editing by directly modifying the located model weights. Most editing works achieve knowledge editing under the guidance of existing interpretations of knowledge recall that mainly focus on subject knowledge. However, these interpretations are seriously flawed, neglecting relation information and leading to the over-generalizing problem for editing. In this work, we discover a novel relation-focused perspective to interpret the knowledge recall of transformer LMs during inference and apply it on single knowledge editing to avoid over-generalizing. Experimental results on the dataset supplemented with a new R-Specificity criterion demonstrate that our editing approach significantly alleviates over-generalizing while remaining competitive on other criteria, breaking the domination of subject-focused editing for future research.

arxiv情報

著者 Xiyu Liu,Zhengxiao Liu,Naibin Gu,Zheng Lin,Wanli Ma,Ji Xiang,Weiping Wang
発行日 2025-02-27 14:21:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Relation Also Knows: Rethinking the Recall and Editing of Factual Associations in Auto-Regressive Transformer Language Models はコメントを受け付けていません