MOSIC: Model-Agnostic Optimal Subgroup Identification with Multi-Constraint for Improved Reliability

要約

観察データを使用して特定の治療から恩恵を受けるサブグループを特定することは、個別化医療における重要な課題です。
ほとんどの既存のアプローチは、治療効果が改善されたサブグループの識別にのみ焦点を当てています。
ただし、代表性のための最小サブグループサイズを確保したり、信頼性のための十分な交絡因子バランスを達成したりするなどの実際的な考慮事項も、調査結果を臨床的に意味のある実用的なものにするために重要です。
一部の研究ではこれらの制約に個別に対処しますが、同時にそれらを処理するための統一されたアプローチを提供するものはありません。
このギャップを埋めるために、複数の制約の下で最適なサブグループ識別のためのモデルと存在するフレームワークを提案します。
この組み合わせ問題を、新しい修正を伴う制約のないMIN-MAX最適化問題として再定式化し、勾配降下昇天アルゴリズムによって解決します。
さらに、実現可能で局所的に最適なソリューションへの収束を証明します。
私たちの方法は安定しており、非常に柔軟であり、観察データで治療の有効性を推定および最適化するためのさまざまなモデルと技術をサポートしています。
合成データセットと現実世界の両方のデータセットの両方での広範な実験は、複数の制約を満たすサブグループを特定し、より高い治療効果を達成し、さまざまなグループサイズにわたってより良い交絡因子バランスをとる効果を示しています。

要約(オリジナル)

Identifying subgroups that benefit from specific treatments using observational data is a critical challenge in personalized medicine. Most existing approaches solely focus on identifying a subgroup with an improved treatment effect. However, practical considerations, such as ensuring a minimum subgroup size for representativeness or achieving sufficient confounder balance for reliability, are also important for making findings clinically meaningful and actionable. While some studies address these constraints individually, none offer a unified approach to handle them simultaneously. To bridge this gap, we propose a model-agnostic framework for optimal subgroup identification under multiple constraints. We reformulate this combinatorial problem as an unconstrained min-max optimization problem with novel modifications and solve it by a gradient descent ascent algorithm. We further prove its convergence to a feasible and locally optimal solution. Our method is stable and highly flexible, supporting various models and techniques for estimating and optimizing treatment effectiveness with observational data. Extensive experiments on both synthetic and real-world datasets demonstrate its effectiveness in identifying subgroups that satisfy multiple constraints, achieving higher treatment effects and better confounder balancing results across different group sizes.

arxiv情報

著者 Wenxin Chen,Weishen Pan,Kyra Gan,Fei Wang
発行日 2025-04-29 16:25:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | MOSIC: Model-Agnostic Optimal Subgroup Identification with Multi-Constraint for Improved Reliability はコメントを受け付けていません

Statistical and Predictive Analysis to Identify Risk Factors and Effects of Post COVID-19 Syndrome

要約

最近の研究に基づいて、いくつかのcovid-19の症状は感染後数ヶ月間持続する可能性があり、長いコビッドと呼ばれるものにつながる可能性があります。
ワクチン接種のタイミング、患者の特性、感染の急性期における症状などの要因は、長いコビッドの長時間の影響と強度に寄与する可能性があります。
各患者は、要因の独自の組み合わせに基づいて、長いコビッドの特定のリスクまたは強度を開発します。
この作業では、2つの目的を達成することを目指しています。(1)統計分析を実施して、さまざまな要因と長いcovidの関係を特定し、(2)これらの因子を使用して長い共生強度の予測分析を実行します。
Lifelines Covid-19コホートのデータを使用して、線形モデル、ランダムフォレスト、勾配ブースト、ニューラルネットワークなど、さまざまなデータ駆動型アプローチをベンチマークおよび解釈します。
私たちの結果は、ニューラルネットワーク(NN)がMAPEに関して最高のパフォーマンスを達成し、平均19%エラーの予測で最高のパフォーマンスを達成することを示しています。
さらに、解釈可能性分析により、臭いの喪失、頭痛、筋肉痛、ワクチン接種のタイミングなどの重要な要因が重要な予測因子として明らかになりますが、慢性疾患と性別は重大な危険因子です。
これらの洞察は、長いコビッドを理解し、ターゲットを絞った介入を開発するための貴重なガイダンスを提供します。

要約(オリジナル)

Based on recent studies, some COVID-19 symptoms can persist for months after infection, leading to what is termed long COVID. Factors such as vaccination timing, patient characteristics, and symptoms during the acute phase of infection may contribute to the prolonged effects and intensity of long COVID. Each patient, based on their unique combination of factors, develops a specific risk or intensity of long COVID. In this work, we aim to achieve two objectives: (1) conduct a statistical analysis to identify relationships between various factors and long COVID, and (2) perform predictive analysis of long COVID intensity using these factors. We benchmark and interpret various data-driven approaches, including linear models, random forests, gradient boosting, and neural networks, using data from the Lifelines COVID-19 cohort. Our results show that Neural Networks (NN) achieve the best performance in terms of MAPE, with predictions averaging 19\% error. Additionally, interpretability analysis reveals key factors such as loss of smell, headache, muscle pain, and vaccination timing as significant predictors, while chronic disease and gender are critical risk factors. These insights provide valuable guidance for understanding long COVID and developing targeted interventions.

arxiv情報

著者 Milad Leyli-abadi,Jean-Patrick Brunet,Axel Tahmasebimoradi
発行日 2025-04-29 16:34:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.LG, G.3 | Statistical and Predictive Analysis to Identify Risk Factors and Effects of Post COVID-19 Syndrome はコメントを受け付けていません

Exploiting inter-agent coupling information for efficient reinforcement learning of cooperative LQR

要約

協力的なマルチエージェント制御のためのスケーラブルで効率的な強化学習アルゴリズムの開発は、過去数年間で大きな注目を集めてきました。
既存の文献は、エージェント間の経験的情報構造に基づいて、ローカルQ関数の不正確な分解を提案しています。
この論文では、エージェント間結合情報を活用し、各エージェントのローカルQ機能を正確に分解するための体系的なアプローチを提案します。
提案された分解に基づいて、おおよその最小の正方形のポリシー反復アルゴリズムを開発し、各エージェントのローカルQ機能を学習するための2つのアーキテクチャを特定します。
分解の最悪のサンプルの複雑さは集中型のケースと等しいことを確立し、エージェント間カップリングに必要かつ十分なグラフィカルな条件を導き出し、サンプル効率を向上させることができます。
数値の例で改善されたサンプル効率と計算効率を示します。

要約(オリジナル)

Developing scalable and efficient reinforcement learning algorithms for cooperative multi-agent control has received significant attention over the past years. Existing literature has proposed inexact decompositions of local Q-functions based on empirical information structures between the agents. In this paper, we exploit inter-agent coupling information and propose a systematic approach to exactly decompose the local Q-function of each agent. We develop an approximate least square policy iteration algorithm based on the proposed decomposition and identify two architectures to learn the local Q-function for each agent. We establish that the worst-case sample complexity of the decomposition is equal to the centralized case and derive necessary and sufficient graphical conditions on the inter-agent couplings to achieve better sample efficiency. We demonstrate the improved sample efficiency and computational efficiency on numerical examples.

arxiv情報

著者 Shahbaz P Qadri Syed,He Bai
発行日 2025-04-29 16:42:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.SY, eess.SY, math.OC | Exploiting inter-agent coupling information for efficient reinforcement learning of cooperative LQR はコメントを受け付けていません

Improvements of Dark Experience Replay and Reservoir Sampling towards Better Balance between Consolidation and Plasticity

要約

継続的な学習は、自律エージェントにとって最も重要な能力の1つであり、日常生活のスキルを徐々に学ぶことができます。
この究極の目標のために、シンプルだが強力な方法であるダークエクスペリエンスリプレイ(DER)が最近提案されています。
Derは、貯水池サンプリング(RS)バッファーにストリーミングデータを確率的に保存し、それらを再学習したり、過去の出力を保持したりすることにより、過去に獲得したスキルが意図せずに忘れられている壊滅的な忘却を軽減します。
ただし、Derは複数の目的を考慮しているため、適切な重み付けなしでは適切に機能しません。
さらに、過去の出力を保持する能力は、分布シフトまたはその他の効果により、過去の出力が間違っている場合の学習を阻害します。
これは、記憶の統合と可塑性の間のトレードオフによるものです。
トレードオフはRSバッファーにさえ隠されており、データが継続的に渡されると、新しいスキルの新しいデータの保存を徐々に停止します。
トレードオフを緩和し、より良いバランスをとるために、このペーパーでは、DERとRSのそれぞれに改善戦略を提案しています。
具体的には、DERは、重みの自動適応、誤ったデータのリプレイブロック、および過去の出力の修正により改善されます。
また、RSは、受け入れ確率の一般化、複数のバッファーの層別化、および不要なデータの意図的な省略により改善されます。
これらの改善は、回帰、分類、補強学習の問題を含む複数のベンチマークを通じて検証されます。
その結果、提案された方法は、メモリの統合と可塑性のバランスをとることにより、学習パフォーマンスの着実な改善を達成します。

要約(オリジナル)

Continual learning is the one of the most essential abilities for autonomous agents, which can incrementally learn daily-life skills. For this ultimate goal, a simple but powerful method, dark experience replay (DER), has been proposed recently. DER mitigates catastrophic forgetting, in which the skills acquired in the past are unintentionally forgotten, by stochastically storing the streaming data in a reservoir sampling (RS) buffer and by relearning them or retaining the past outputs for them. However, since DER considers multiple objectives, it will not function properly without appropriate weighting of them. In addition, the ability to retain past outputs inhibits learning if the past outputs are incorrect due to distribution shift or other effects. This is due to a tradeoff between memory consolidation and plasticity. The tradeoff is hidden even in the RS buffer, which gradually stops storing new data for new skills in it as data is continuously passed to it. To alleviate the tradeoff and achieve better balance, this paper proposes improvement strategies to each of DER and RS. Specifically, DER is improved with automatic adaptation of weights, block of replaying erroneous data, and correction of past outputs. RS is also improved with generalization of acceptance probability, stratification of plural buffers, and intentional omission of unnecessary data. These improvements are verified through multiple benchmarks including regression, classification, and reinforcement learning problems. As a result, the proposed methods achieve steady improvements in learning performance by balancing the memory consolidation and plasticity.

arxiv情報

著者 Taisuke Kobayashi
発行日 2025-04-29 16:50:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Improvements of Dark Experience Replay and Reservoir Sampling towards Better Balance between Consolidation and Plasticity はコメントを受け付けていません

Energy-Based Coarse-Graining in Molecular Dynamics: A Flow-Based Framework Without Data

要約

粗粒(CG)モデルは、分子シミュレーションの複雑さを減らすための効果的なルートを提供しますが、従来のアプローチは、長い全原子分子動力学(MD)軌道に大きく依存して、構成空間を適切にサンプリングします。
このデータ駆動型の依存関係は、訪問のない構成が結果のCGモデルから除外されたままであるため、精度と一般化可能性を制限します。
全原子のボルツマン分布を直接標的とする粗材を採取するためのデータのない生成フレームワークを導入します。
私たちのモデルは、メタスト可能な状態を捕捉するマルチモーダルの周辺密度に統計的に関連する遅い集団変数を含む構造化された潜在空間と、単純で単峰性の条件分布を持つ残りの自由度を表す高速変数を定義します。
完全な潜在空間から全原子構成空間までの潜在的に学習可能な生物的マップにより、分子構造の自動で正確な再構築が可能になります。
このモデルは、サンプリングされた軌跡ではなく原子間のポテンシャルのみに依存する、逆カルバック – 繰り返しの発散を最小限に抑えるエネルギーベースの目的を使用してトレーニングされます。
焼き戻しスキームは、トレーニングを安定させ、多様な構成の調査を促進するために使用されます。
訓練されると、このモデルは、偏りのないワンショットの平衡サンプルを生成できます。
2つの合成システム – ダブルウェルポテンシャルとガウス混合物のメソッドを検証します。
このモデルは、ボルツマン分布のすべての関連するモードをキャプチャし、原子構成を正確に再構築し、シミュレーションデータがすべてない物理的に意味のある粗粒表現を学習します。

要約(オリジナル)

Coarse-grained (CG) models offer an effective route to reducing the complexity of molecular simulations, yet conventional approaches depend heavily on long all-atom molecular dynamics (MD) trajectories to adequately sample configurational space. This data-driven dependence limits their accuracy and generalizability, as unvisited configurations remain excluded from the resulting CG model. We introduce a data-free generative framework for coarse-graining that directly targets the all-atom Boltzmann distribution. Our model defines a structured latent space comprising slow collective variables, which are statistically associated with multimodal marginal densities capturing metastable states, and fast variables, which represent the remaining degrees of freedom with simple, unimodal conditional distributions. A potentially learnable, bijective map from the full latent space to the all-atom configuration space enables automatic and accurate reconstruction of molecular structures. The model is trained using an energy-based objective that minimizes the reverse Kullback-Leibler divergence, relying solely on the interatomic potential rather than sampled trajectories. A tempering scheme is used to stabilize training and promote exploration of diverse configurations. Once trained, the model can generate unbiased, one-shot equilibrium all-atom samples. We validate the method on two synthetic systems-a double-well potential and a Gaussian mixture-as well as on the benchmark alanine dipeptide. The model captures all relevant modes of the Boltzmann distribution, accurately reconstructs atomic configurations, and learns physically meaningful coarse-grained representations, all without any simulation data.

arxiv情報

著者 Maximilian Stupp,P. S. Koutsourelakis
発行日 2025-04-29 17:05:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph, physics.comp-ph | Energy-Based Coarse-Graining in Molecular Dynamics: A Flow-Based Framework Without Data はコメントを受け付けていません

Scenario-based Compositional Verification of Autonomous Systems with Neural Perception

要約

深い学習の最近の進歩により、知覚に深いニューラルネットワークを使用する自律システムの開発が可能になりました。
これらのシステムの正式な検証は、認識DNNのサイズと複雑さ、および環境条件の変化が困難になることのために困難です。
これらの課題に対処するために、次の重要な概念に基づいて自律システムの確率的検証フレームワークを提案します。(1)シナリオベースのモデリング:それぞれが異なる環境条件を表すシナリオの構成にタスク(たとえば、カーナビゲーション)を分解します。
(2)確率的抽象化:各シナリオについて、シナリオの環境条件を表すオフラインデータセットでのDNNのパフォーマンスに基づいて、知覚のコンパクトな抽象化を構築します。
(3)象徴的な推論と加速:抽象化により、象徴的な推論と、環境条件の任意のバリエーションでシステムの誤差確率を制限する新しい加速度証明規則を介して自律システムの効率的な構成検証が可能になります。
2つのケーススタディでのアプローチを説明します。高次元の知覚DNNSを使用してタクシーで飛行機を導く実験的自律システムと、LIDAR観測を使用したF1tenth自律車のシミュレーションモデルです。

要約(オリジナル)

Recent advances in deep learning have enabled the development of autonomous systems that use deep neural networks for perception. Formal verification of these systems is challenging due to the size and complexity of the perception DNNs as well as hard-to-quantify, changing environment conditions. To address these challenges, we propose a probabilistic verification framework for autonomous systems based on the following key concepts: (1) Scenario-based Modeling: We decompose the task (e.g., car navigation) into a composition of scenarios, each representing a different environment condition. (2) Probabilistic Abstractions: For each scenario, we build a compact abstraction of perception based on the DNN’s performance on an offline dataset that represents the scenario’s environment condition. (3) Symbolic Reasoning and Acceleration: The abstractions enable efficient compositional verification of the autonomous system via symbolic reasoning and a novel acceleration proof rule that bounds the error probability of the system under arbitrary variations of environment conditions. We illustrate our approach on two case studies: an experimental autonomous system that guides airplanes on taxiways using high-dimensional perception DNNs and a simulation model of an F1Tenth autonomous car using LiDAR observations.

arxiv情報

著者 Christopher Watson,Rajeev Alur,Divya Gopinath,Ravi Mangal,Corina S. Pasareanu
発行日 2025-04-29 17:06:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Scenario-based Compositional Verification of Autonomous Systems with Neural Perception はコメントを受け付けていません

Deep Learning Characterizes Depression and Suicidal Ideation from Eye Movements

要約

精神的健康状態のための生理学的および行動マーカーを特定することは、精神医学における長年の課題です。
特にうつ病と自殺念慮は、主に自己報告や臨床インタビューに依存してスクリーニングと診断を伴う客観的なバイオマーカーを欠いています。
ここでは、スクリーニング目的のための潜在的なマーカーモダリティとして目の追跡を調査します。
目の動きは、ニューロンのネットワークによって直接変調され、注意と気分に関連するパターンに関連しています。
ただし、うつ病と自殺の予測値は不明のままです。
126人の若い成人が感情文に読んで応答したときに視線追跡シーケンスを記録し、その後、臨床状態を予測するために深い学習フレームワークを開発しました。
提案されたモデルには、肯定的および否定的な感情の試験のための個別の枝が含まれており、2D時系列表現を使用して、裁判内および裁判間の両方のバリエーションを説明しました。
健康なコントロールに対して0.793(95%CI:0.765-0.819)のレシーバー動作曲線(AUC)の下の領域を使用して、特に0.826 AUC(95%CI:0.797-0.852)に対して、うつ病と自殺念慮を特定することができました。
このモデルは、0.609 AUC(95%CI 0.571-0.646)で、自殺参加者との抑うつを区別する際に中程度でありながら有意な精度を示しました。
識別パターンは、文の最終単語の開始時間と比較して、応答生成と比較してデータを評価する際に、より強く出現します。
最も顕著な効果は、うつ病と自殺の参加者に一致する、負の感情文で観察されました。
私たちの調査結果は、メンタルヘルス評価の客観的なツールとしての目の追跡を強調し、眼球運動制御に影響を与える認知プロセスに対する感情的刺激の調節的影響を強調しています。

要約(オリジナル)

Identifying physiological and behavioral markers for mental health conditions is a longstanding challenge in psychiatry. Depression and suicidal ideation, in particular, lack objective biomarkers, with screening and diagnosis primarily relying on self-reports and clinical interviews. Here, we investigate eye tracking as a potential marker modality for screening purposes. Eye movements are directly modulated by neuronal networks and have been associated with attentional and mood-related patterns; however, their predictive value for depression and suicidality remains unclear. We recorded eye-tracking sequences from 126 young adults as they read and responded to affective sentences, and subsequently developed a deep learning framework to predict their clinical status. The proposed model included separate branches for trials of positive and negative sentiment, and used 2D time-series representations to account for both intra-trial and inter-trial variations. We were able to identify depression and suicidal ideation with an area under the receiver operating curve (AUC) of 0.793 (95% CI: 0.765-0.819) against healthy controls, and suicidality specifically with 0.826 AUC (95% CI: 0.797-0.852). The model also exhibited moderate, yet significant, accuracy in differentiating depressed from suicidal participants, with 0.609 AUC (95% CI 0.571-0.646). Discriminative patterns emerge more strongly when assessing the data relative to response generation than relative to the onset time of the final word of the sentences. The most pronounced effects were observed for negative-sentiment sentences, that are congruent to depressed and suicidal participants. Our findings highlight eye tracking as an objective tool for mental health assessment and underscore the modulatory impact of emotional stimuli on cognitive processes affecting oculomotor control.

arxiv情報

著者 Kleanthis Avramidis,Woojae Jeong,Aditya Kommineni,Sudarsana R. Kadiri,Marcus Ma,Colin McDaniel,Myzelle Hughes,Thomas McGee,Elsi Kaiser,Dani Byrd,Assal Habibi,B. Rael Cahn,Idan A. Blank,Kristina Lerman,Takfarinas Medani,Richard M. Leahy,Shrikanth Narayanan
発行日 2025-04-29 17:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Deep Learning Characterizes Depression and Suicidal Ideation from Eye Movements はコメントを受け付けていません

AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security

要約

Aegisllmは、敵対的な攻撃と情報の漏れに対する協同組合の多エージェント防衛を紹介します。
Aegisllmでは、自律エージェントの構造化されたワークフロー – オーケストレーター、デフレクター、レスポンダー、および評価者 – 協力して、安全で準拠したLLM出力を確保しながら、迅速な最適化を通じて時間の経過とともに自己改善します。
テスト時にスケーリングエージェントの推論システム – 追加のエージェントの役割を組み込むことと、自動化された迅速な最適化(DSPYなど)を活用することにより、モデルの有用性を損なうことなく堅牢性を大幅に向上させることを示します。
このテスト時間防御により、モデル再訓練を必要とせずに、リアルタイムの適応性が進化する攻撃にリアルタイムの適応性を可能にします。
未学習や脱却などの主要な脅威シナリオ全体の包括的な評価は、aegisllmの有効性を示しています。
WMDPの学習ベンチマークでは、aegisllmは、わずか20のトレーニング例と300 LMコール未満のコールでほぼ完全に学習しています。
手動breakのベンチマークでは、強StrongRejectの基本モデルと比較して51%の改善を達成し、同等の方法では18-55%に対して、PHTESTで7.9%の誤った拒否率が7.9%しかありません。
私たちの結果は、静的な防御に対する適応的でエージェントの推論の利点を強調し、モデルの変更に基づいた従来のアプローチに代わる強力なランタイムの代替としてAegisllmを確立します。
コードはhttps://github.com/zikuicai/aegisllmで入手できます

要約(オリジナル)

We introduce AegisLLM, a cooperative multi-agent defense against adversarial attacks and information leakage. In AegisLLM, a structured workflow of autonomous agents – orchestrator, deflector, responder, and evaluator – collaborate to ensure safe and compliant LLM outputs, while self-improving over time through prompt optimization. We show that scaling agentic reasoning system at test-time – both by incorporating additional agent roles and by leveraging automated prompt optimization (such as DSPy)- substantially enhances robustness without compromising model utility. This test-time defense enables real-time adaptability to evolving attacks, without requiring model retraining. Comprehensive evaluations across key threat scenarios, including unlearning and jailbreaking, demonstrate the effectiveness of AegisLLM. On the WMDP unlearning benchmark, AegisLLM achieves near-perfect unlearning with only 20 training examples and fewer than 300 LM calls. For jailbreaking benchmarks, we achieve 51% improvement compared to the base model on StrongReject, with false refusal rates of only 7.9% on PHTest compared to 18-55% for comparable methods. Our results highlight the advantages of adaptive, agentic reasoning over static defenses, establishing AegisLLM as a strong runtime alternative to traditional approaches based on model modifications. Code is available at https://github.com/zikuicai/aegisllm

arxiv情報

著者 Zikui Cai,Shayan Shabihi,Bang An,Zora Che,Brian R. Bartoldson,Bhavya Kailkhura,Tom Goldstein,Furong Huang
発行日 2025-04-29 17:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security はコメントを受け付けていません

Softpick: No Attention Sink, No Massive Activations with Rectified Softmax

要約

注意シンクと大規模な活性化を排除するトランスの注意メカニズムにおけるソフトマックスの整理整形ではなく、整理型のドロップイン置換であるSoftPickを紹介します。
340Mパラメーターモデルを使用した実験は、SoftPickが0%のシンクレートを達成しながら、標準ベンチマークでSoftMaxを持つパフォーマンスパリティを維持することを示しています。
ソフトピックトランスは、尖度が大幅に低い(340対33,510)、隠された状態を生成し、まばらな注意マップ(46.97%スパース性)を作成します。
SoftPickを使用するモデルは、量子化時にSoftMaxを一貫して上回ります。
分析と議論は、ソフトピックが量子化、低精度トレーニング、スパースの最適化、剪定、および解釈の新しい可能性をどのように開く可能性があるかを示しています。
私たちのコードは、https://github.com/zaydzuhri/softpick-attentionで入手できます。

要約(オリジナル)

We introduce softpick, a rectified, not sum-to-one, drop-in replacement for softmax in transformer attention mechanisms that eliminates attention sink and massive activations. Our experiments with 340M parameter models demonstrate that softpick maintains performance parity with softmax on standard benchmarks while achieving 0% sink rate. The softpick transformer produces hidden states with significantly lower kurtosis (340 vs 33,510) and creates sparse attention maps (46.97% sparsity). Models using softpick consistently outperform softmax when quantized, with particularly pronounced advantages at lower bit precisions. Our analysis and discussion shows how softpick has the potential to open new possibilities for quantization, low-precision training, sparsity optimization, pruning, and interpretability. Our code is available at https://github.com/zaydzuhri/softpick-attention.

arxiv情報

著者 Zayd M. K. Zuhri,Erland Hilman Fuadi,Alham Fikri Aji
発行日 2025-04-29 17:36:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Softpick: No Attention Sink, No Massive Activations with Rectified Softmax はコメントを受け付けていません

XPG-RL: Reinforcement Learning with Explainable Priority Guidance for Efficiency-Boosted Mechanical Search

要約

散らかった環境での機械的検索(MS)は、自律操作者にとって重要な課題であり、咬合と部分的な観測可能性の下での長期計画と堅牢な状態推定を必要とします。
この作業では、生の感覚入力に基づいて説明可能な優先順位ガイド付きの意思決定を通じてエージェントがMSタスクを効率的に実行できるようにする強化学習フレームワークであるXPG-RLを導入します。
XPG-RLは、タスク駆動型のアクションの優先順位付けメカニズムを、ターゲットの把握、閉塞除去、視点調整などの離散一連のアクションプリミティブから動的に選択する学習したコンテキスト認識スイッチング戦略と統合します。
この戦略では、ポリシーは、アクションプリミティブ間の個別の選択を支配する適応しきい値を出力するように最適化されています。
Perceptionモジュールは、RGB-D入力をセマンティックおよび幾何学的特徴と融合して、下流の意思決定のための構造化されたシーン表現を生成します。
シミュレーションと現実世界の両方の設定での広範な実験は、XPG-RLがタスクの成功率とモーション効率のベースライン方法を一貫して上回ることを示しています。
これらの結果は、堅牢で効率的なロボット操作のための学習可能な意思決定ポリシーとドメインの知識を統合することの利点を強調しています。

要約(オリジナル)

Mechanical search (MS) in cluttered environments remains a significant challenge for autonomous manipulators, requiring long-horizon planning and robust state estimation under occlusions and partial observability. In this work, we introduce XPG-RL, a reinforcement learning framework that enables agents to efficiently perform MS tasks through explainable, priority-guided decision-making based on raw sensory inputs. XPG-RL integrates a task-driven action prioritization mechanism with a learned context-aware switching strategy that dynamically selects from a discrete set of action primitives such as target grasping, occlusion removal, and viewpoint adjustment. Within this strategy, a policy is optimized to output adaptive threshold values that govern the discrete selection among action primitives. The perception module fuses RGB-D inputs with semantic and geometric features to produce a structured scene representation for downstream decision-making. Extensive experiments in both simulation and real-world settings demonstrate that XPG-RL consistently outperforms baseline methods in task success rates and motion efficiency, achieving up to 4.5$\times$ higher efficiency in long-horizon tasks. These results underscore the benefits of integrating domain knowledge with learnable decision-making policies for robust and efficient robotic manipulation.

arxiv情報

著者 Yiting Zhang,Shichen Li,Elena Shrestha
発行日 2025-04-29 17:37:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | XPG-RL: Reinforcement Learning with Explainable Priority Guidance for Efficiency-Boosted Mechanical Search はコメントを受け付けていません