Reconfigurable Intelligent Surfaces-Assisted Integrated Access and Backhaul

要約

この論文では、統合アクセスとバックホール(IAB)ネットワークのカバレッジ拡張に対する再構成可能なインテリジェントサーフェス(RISS)の影響を研究します。
特に、有限の確率幾何学モデルを使用して、有限領域にユーザー機器(UE)のランダム分布、およびIABの計画された階層アーキテクチャを使用して、UESの最小レート要件のイベントの確率として定義されたサービスカバレッジ確率を研究します。
満足しています。
IABのみを含むさまざまなケースの比較を提示します。IABは、バックホールのRISを支援し、ネットワーク制御リピーター(NCR)によって支援されたIABを支援しました。
私たちの調査は、さまざまなデザインアーキテクチャと展開のレンズを介したRISを支援し、季節の変化に対する葉の葉の効果を最小限に抑えるための紛争と相乗効果の両方を明らかにしました。
私たちのシミュレーション結果は、IABでのRIの実装に向けた機会と課題の両方を明らかにしています。

要約(オリジナル)

In this paper, we study the impact of reconfigurable intelligent surfaces (RISs) on the coverage extension of integrated access and backhaul (IAB) networks. Particularly, using a finite stochastic geometry model, with random distributions of user equipments (UEs) in a finite region, and planned hierachical architecture for IAB, we study the service coverage probability defined as the probability of the event that the UEs’ minimum rate requirements are satisfied. We present comparisons between different cases including IAB-only, IAB assisted with RIS for backhaul as well as IAB assisted by network controlled repeaters (NCRs). Our investigations focus on wide-area IAB assisted with RIS through the lens of different design architectures and deployments, revealing both conflicts and synergies for minimizing the effect of tree foliage over seasonal changes. Our simulation results reveal both opportunities and challenges towards the implementation of RIS in IAB.

arxiv情報

著者 Charitha Madapatha,Behrooz Makki,Hao Guo,Tommy Svensson
発行日 2025-02-17 16:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, cs.NI, math.IT | Reconfigurable Intelligent Surfaces-Assisted Integrated Access and Backhaul はコメントを受け付けていません

Unsupervised Structural-Counterfactual Generation under Domain Shift

要約

クロスドメイン学習への急成長の関心に動機付けられ、新しい生成モデリングの課題を提示します。ソースドメインからの事実の観察に基づいて、ターゲットドメインで反事実的なサンプルを生成します。
私たちのアプローチは、各ドメインの明確な観測サンプルと因果グラフにのみ依存して、平行または共同データセットを欠いている監視されていないパラダイム内で動作します。
この設定には、従来の反事実的生成の課題を上回る課題があります。
私たちの方法論の中心は、外因性の原因が効果的な原因とドメインintrincicのカテゴリを曖昧にしていることです。
この分化により、ドメイン固有の因果グラフの統合が、共有効果 – 内向性外因性変数を介して統一されたジョイント因果グラフに統合されます。
この共同フレームワーク内で神経因果モデルを活用して、標準の識別可能性の仮定の下で正確な反事実生成を可能にすることを提案します。
さらに、モデルトレーニング中にドメイン内膜変数から効果的にintrincicを分離する新しい損失関数を導入します。
事実上の観察を考えると、我々のフレームワークは、ソースドメインからの効果内向変数の事後分布と、ターゲットドメインからのドメインintrincic変数の事前分布を組み合わせて、目的の反事実を合成し、パールの因果階層を順守します。
興味深いことに、ドメインシフトが共変量シフトを伴わずに因果メカニズムの変化に限定される場合、トレーニングレジメンは条件付き最適輸送問題の解決と類似しています。
合成データセットの経験的評価は、私たちのフレームワークがターゲットドメインで非常に類似しているターゲットドメインで反事実を生成することを示しています。

要約(オリジナル)

Motivated by the burgeoning interest in cross-domain learning, we present a novel generative modeling challenge: generating counterfactual samples in a target domain based on factual observations from a source domain. Our approach operates within an unsupervised paradigm devoid of parallel or joint datasets, relying exclusively on distinct observational samples and causal graphs for each domain. This setting presents challenges that surpass those of conventional counterfactual generation. Central to our methodology is the disambiguation of exogenous causes into effect-intrinsic and domain-intrinsic categories. This differentiation facilitates the integration of domain-specific causal graphs into a unified joint causal graph via shared effect-intrinsic exogenous variables. We propose leveraging Neural Causal models within this joint framework to enable accurate counterfactual generation under standard identifiability assumptions. Furthermore, we introduce a novel loss function that effectively segregates effect-intrinsic from domain-intrinsic variables during model training. Given a factual observation, our framework combines the posterior distribution of effect-intrinsic variables from the source domain with the prior distribution of domain-intrinsic variables from the target domain to synthesize the desired counterfactuals, adhering to Pearl’s causal hierarchy. Intriguingly, when domain shifts are restricted to alterations in causal mechanisms without accompanying covariate shifts, our training regimen parallels the resolution of a conditional optimal transport problem. Empirical evaluations on a synthetic dataset show that our framework generates counterfactuals in the target domain that very closely resemble the ground truth.

arxiv情報

著者 Krishn Vishwas Kher,Lokesh Venkata Siva Maruthi Badisa,Kusampudi Venkata Datta Sri Harsha,Chitneedi Geetha Sowmya,SakethaNath Jagarlapudi
発行日 2025-02-17 16:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Unsupervised Structural-Counterfactual Generation under Domain Shift はコメントを受け付けていません

Investigating the importance of social vulnerability in opioid-related mortality across the United States

要約

オピオイドの危機は、米国では重要な公衆衛生上の課題のままです。
2011年から2021年の間にオピオイド処方率を45%近く削減するための全国的な努力にもかかわらず、この同じ期間にオピオイドの過剰摂取による死亡は3倍以上になりました。
この驚くべき傾向は、危機の大きな変化を反映しており、違法なオピオイドは処方オピオイドの代わりに過剰摂取による死亡の大部分を促進しています。
この移行を促進する供給側の要因には多くの注意が払われていますが、オピオイドの誤用を永続させ、悪化させる根本的な社会経済的条件は理解されていないままです。
さらに、Covid-19のパンデミックは、広範囲にわたる社会的孤立と記録的な失業を通じてオピオイドの危機を強めました。
その結果、この流行の社会経済的要因を理解することは、近年さらに重要になっています。
このニーズに対処するために、我々の研究では、オピオイド関連の死亡率と社会的脆弱性指数(SVI)の13成分との相関関係を調べます。
2010年から2022年までの連続年に及ぶ全国規模の郡レベルのデータセットを活用して、この研究では、実験データ分析からの経験的洞察を、機械学習モデルから派生した機能の重要性メトリックと統合します。
私たちの調査結果は、オピオイド関連の死亡率と強く相関する重要な社会的要因を強調し、レベルが高いときに流行を悪化させる潜在的な役割を強調し、レベルが低いときにそれを緩和します。

要約(オリジナル)

The opioid crisis remains a critical public health challenge in the United States. Despite national efforts to reduce opioid prescribing rates by nearly 45\% between 2011 and 2021, opioid overdose deaths more than tripled during this same period. This alarming trend reflects a major shift in the crisis, with illegal opioids now driving the majority of overdose deaths instead of prescription opioids. Although much attention has been given to supply-side factors fueling this transition, the underlying socioeconomic conditions that perpetuate and exacerbate opioid misuse remain less understood. Moreover, the COVID-19 pandemic intensified the opioid crisis through widespread social isolation and record-high unemployment; consequently, understanding the socioeconomic drivers of this epidemic has become even more crucial in recent years. To address this need, our study examines the correlation between opioid-related mortality and thirteen components of the Social Vulnerability Index (SVI). Leveraging a nationwide county-level dataset spanning consecutive years from 2010 to 2022, this study integrates empirical insights from exploratory data analysis with feature importance metrics derived from machine learning models. Our findings highlight critical social factors strongly correlated with opioid-related mortality, emphasizing their potential roles in worsening the epidemic when their levels are high and mitigating it when their levels are low.

arxiv情報

著者 Andrew Deas,Adam Spannaus,Dakotah D. Maguire,Jodie Trafton,Anuj J. Kapadia,Vasileios Maroulas
発行日 2025-02-17 16:54:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG | Investigating the importance of social vulnerability in opioid-related mortality across the United States はコメントを受け付けていません

The geometry of BERT

要約

トランスニューラルネットワーク、特に変圧器(BERT)からの双方向エンコーダー表現は、分類、テキストの要約、質問への回答などのさまざまなタスクで顕著なパフォーマンスを示しています。
しかし、それらの内部メカニズムは数学的にあいまいなままであり、より大きな説明可能性と解釈可能性の必要性を強調しています。
この方向に、この論文は、理論的視点からバートの注意メカニズムに関する新しい視点を提案するバートの内部メカニズムを調査します。
分析には、ローカルおよびグローバルネットワークの両方の動作が含まれます。
ローカルレベルでは、サブスペース選択の方向性の概念と、自己関節マトリックスから出現するパターンの包括的な研究が提示されています。
さらに、この作業では、データ分布分析と、コーンインデックスの新しい概念を含むグローバルな統計的測定を通じて、情報ストリームの意味コンテンツを調査します。
RNAを使用したSARS-COV-2バリアントの分類に関するケーススタディで、アプリケーションでこれらの概念を観察するために非常に高い精度が選択されました。
この分析から得られた洞察は、バートの分類プロセスのより深い理解に貢献し、変圧器モデルの将来の建築改善とトレーニングプロセスのさらなる分析のための潜在的な道を提供します。

要約(オリジナル)

Transformer neural networks, particularly Bidirectional Encoder Representations from Transformers (BERT), have shown remarkable performance across various tasks such as classification, text summarization, and question answering. However, their internal mechanisms remain mathematically obscure, highlighting the need for greater explainability and interpretability. In this direction, this paper investigates the internal mechanisms of BERT proposing a novel perspective on the attention mechanism of BERT from a theoretical perspective. The analysis encompasses both local and global network behavior. At the local level, the concept of directionality of subspace selection as well as a comprehensive study of the patterns emerging from the self-attention matrix are presented. Additionally, this work explores the semantic content of the information stream through data distribution analysis and global statistical measures including the novel concept of cone index. A case study on the classification of SARS-CoV-2 variants using RNA which resulted in a very high accuracy has been selected in order to observe these concepts in an application. The insights gained from this analysis contribute to a deeper understanding of BERT’s classification process, offering potential avenues for future architectural improvements in Transformer models and further analysis in the training process.

arxiv情報

著者 Matteo Bonino,Giorgia Ghione,Giansalvo Cirrincione
発行日 2025-02-17 17:03:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | The geometry of BERT はコメントを受け付けていません

Revisiting the Equivalence of Bayesian Neural Networks and Gaussian Processes: On the Importance of Learning Activations

要約

ガウスプロセス(GPS)は、関数空間前のプライアーを指定するための便利なフレームワークを提供し、不確実性をモデル化するための自然な選択となっています。
対照的に、ベイジアンニューラルネットワーク(BNNS)はより大きなスケーラビリティと拡張性を提供しますが、GPSの有利な特性がありません。
これにより、GP様行動を複製できるBNNの開発が動機付けられます。
ただし、既存のソリューションは特定のGPカーネルに限定されるか、ヒューリスティックに依存しています。
訓練可能な活性化が、GPプライアーを幅広いBNNに効果的にマッピングするために重要であることを実証します。
具体的には、閉じた形式の2ワーザースタイン距離を活用して、リダメーター化されたプライアーと活性化の効率的な勾配ベースの最適化を活用します。
学習したアクティベーションを超えて、設計ごとにグローバルな定常性を確保するトレーニング可能な定期的なアクティベーションを導入し、GPハイパーパラメーターを条件として効率的なモデル選択を可能にする機能的プライアーも導入します。
経験的に、私たちの方法は、より強力な理論的基盤を提供しながら、既存のアプローチを一貫して上回るか、ヒューリスティックな方法のパフォーマンスを上回ります。

要約(オリジナル)

Gaussian Processes (GPs) provide a convenient framework for specifying function-space priors, making them a natural choice for modeling uncertainty. In contrast, Bayesian Neural Networks (BNNs) offer greater scalability and extendability but lack the advantageous properties of GPs. This motivates the development of BNNs capable of replicating GP-like behavior. However, existing solutions are either limited to specific GP kernels or rely on heuristics. We demonstrate that trainable activations are crucial for effective mapping of GP priors to wide BNNs. Specifically, we leverage the closed-form 2-Wasserstein distance for efficient gradient-based optimization of reparameterized priors and activations. Beyond learned activations, we also introduce trainable periodic activations that ensure global stationarity by design, and functional priors conditioned on GP hyperparameters to allow efficient model selection. Empirically, our method consistently outperforms existing approaches or matches performance of the heuristic methods, while offering stronger theoretical foundations.

arxiv情報

著者 Marcin Sendera,Amin Sorkhei,Tomasz Kuśmierczyk
発行日 2025-02-17 17:11:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Revisiting the Equivalence of Bayesian Neural Networks and Gaussian Processes: On the Importance of Learning Activations はコメントを受け付けていません

Classifying the Stoichiometry of Virus-like Particles with Interpretable Machine Learning

要約

ウイルス様粒子(VLP)は、免疫トリガー特性のためにワクチンの発達に役立ちます。
それらの化学量論を理解する、VLPを形成するタンパク質サブユニットの数は、ワクチンの最適化にとって重要です。
しかし、化学量論を決定するための現在の実験方法は時間がかかり、高度に精製されたタンパク質が必要です。
タンパク質の化学量論クラスを効率的に分類するために、新しいデータセットをキュレートし、解釈可能なデータ駆動型のパイプラインをレバレバリングする線形機械学習モデルを提案します。
また、モデルのパフォーマンスと解釈可能性に対する機能エンコーディングの影響、および分類に影響を与える主要なタンパク質シーケンス機能を特定する方法についても調査します。
パイプラインの評価は、VLPアセンブリに影響を与える可能性のあるタンパク質特徴を明らかにしながら、化学量論を分類できることを示しています。
この作業で使用されているデータとコードは、https://github.com/shef-are/stoicimlで公開されています。

要約(オリジナル)

Virus-like particles (VLPs) are valuable for vaccine development due to their immune-triggering properties. Understanding their stoichiometry, the number of protein subunits to form a VLP, is critical for vaccine optimisation. However, current experimental methods to determine stoichiometry are time-consuming and require highly purified proteins. To efficiently classify stoichiometry classes in proteins, we curate a new dataset and propose an interpretable, data-driven pipeline leveraging linear machine learning models. We also explore the impact of feature encoding on model performance and interpretability, as well as methods to identify key protein sequence features influencing classification. The evaluation of our pipeline demonstrates that it can classify stoichiometry while revealing protein features that possibly influence VLP assembly. The data and code used in this work are publicly available at https://github.com/Shef-AIRE/StoicIML.

arxiv情報

著者 Jiayang Zhang,Xianyuan Liu,Wei Wu,Sina Tabakhi,Wenrui Fan,Shuo Zhou,Kang Lan Tee,Tuck Seng Wong,Haiping Lu
発行日 2025-02-17 17:16:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM, q-bio.QM | Classifying the Stoichiometry of Virus-like Particles with Interpretable Machine Learning はコメントを受け付けていません

Low-Rank Thinning

要約

薄くなる目標は、小さなポイントの小さなセットを使用してデータセットを要約することです。
驚くべきことに、カーネルの半分や圧縮などのガウス薄薄化アルゴリズムは、均一なサブサンプリングの品質と一致し、要約ポイントの数を大幅に減らします。
ただし、既存の保証は、制限された分布範囲とカーネルベースの品質測定のみをカバーし、悲観的な次元依存性に苦しんでいます。
これらの欠陥に対処するために、カーネルまたはデータマトリックスがほぼ低ランクである場合はいつでも高品質の圧縮を保証する、分布およびカーネルに適用されるサブガウス薄化の新しい低ランク分析を導入します。
技術の幅広い適用性を実証するために、トランスの注意を近似し、並べ替えによる確率勾配トレーニングを加速するための最もよく知られている保証を改善する実用的なサブガウス薄化アプローチを設計し、直線的な時間における分布を区別します。

要約(オリジナル)

The goal in thinning is to summarize a dataset using a small set of representative points. Remarkably, sub-Gaussian thinning algorithms like Kernel Halving and Compress can match the quality of uniform subsampling while substantially reducing the number of summary points. However, existing guarantees cover only a restricted range of distributions and kernel-based quality measures and suffer from pessimistic dimension dependence. To address these deficiencies, we introduce a new low-rank analysis of sub-Gaussian thinning that applies to any distribution and any kernel, guaranteeing high-quality compression whenever the kernel or data matrix is approximately low-rank. To demonstrate the broad applicability of the techniques, we design practical sub-Gaussian thinning approaches that improve upon the best known guarantees for approximating attention in transformers, accelerating stochastic gradient training through reordering, and distinguishing distributions in near-linear time.

arxiv情報

著者 Annabelle Michael Carrell,Albert Gong,Abhishek Shetty,Raaz Dwivedi,Lester Mackey
発行日 2025-02-17 17:30:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.ST, stat.ME, stat.ML, stat.TH | Low-Rank Thinning はコメントを受け付けていません

Unifying Explainable Anomaly Detection and Root Cause Analysis in Dynamical Systems

要約

さまざまな科学および工学ドメインで一般的な動的システムは、パフォーマンスと信頼性に大きな影響を与える可能性のある異常の影響を受けます。
このペーパーでは、異常検出、根本原因の局在化、および通常の微分方程式(ODE)によって支配された動的システムにおける異常なタイプの分類の重要な課題について説明します。
異常の2つのカテゴリを定義します。つまり、相互接続された変数を介して伝播するサイバーアノマリーと、個々の変数に局在したままの測定異常です。
これらの課題に対処するために、モデル内注文の説明可能な学習フレームワークである解釈可能な因果関係の通常の微分方程式(ICODE)ネットワークを提案します。
ICODEは、根本原因分析(RCA)を実行するために説明チャネルを介して因果関係の推論を使用しながら、異常検出のためにニューラルODを活用し、特定の期間が異常としてフラグが付けられる理由を解明します。
ICODEは、単一の解釈可能なフレームワーク内で異常検出、RCA、および異常タイプの分類を同時に実行するように設計されています。
私たちのアプローチは、異常がシステムの根本的なodeを変化させ、変数間の因果関係の変化として顕在化するという仮説に基づいています。
学習されたモデルパラメーターの摂動をどのように使用して、時系列データに異常とその根本原因を特定できるかについての理論的分析を提供します。
包括的な実験的評価は、さまざまな動的システムにわたるICODEの有効性を実証し、異常を正確に検出し、その種類を分類し、その起源を特定する能力を示しています。

要約(オリジナル)

Dynamical systems, prevalent in various scientific and engineering domains, are susceptible to anomalies that can significantly impact their performance and reliability. This paper addresses the critical challenges of anomaly detection, root cause localization, and anomaly type classification in dynamical systems governed by ordinary differential equations (ODEs). We define two categories of anomalies: cyber anomalies, which propagate through interconnected variables, and measurement anomalies, which remain localized to individual variables. To address these challenges, we propose the Interpretable Causality Ordinary Differential Equation (ICODE) Networks, a model-intrinsic explainable learning framework. ICODE leverages Neural ODEs for anomaly detection while employing causality inference through an explanation channel to perform root cause analysis (RCA), elucidating why specific time periods are flagged as anomalous. ICODE is designed to simultaneously perform anomaly detection, RCA, and anomaly type classification within a single, interpretable framework. Our approach is grounded in the hypothesis that anomalies alter the underlying ODEs of the system, manifesting as changes in causal relationships between variables. We provide a theoretical analysis of how perturbations in learned model parameters can be utilized to identify anomalies and their root causes in time series data. Comprehensive experimental evaluations demonstrate the efficacy of ICODE across various dynamical systems, showcasing its ability to accurately detect anomalies, classify their types, and pinpoint their origins.

arxiv情報

著者 Yue Sun,Rick S. Blum,Parv Venkitasubramaniam
発行日 2025-02-17 18:01:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Unifying Explainable Anomaly Detection and Root Cause Analysis in Dynamical Systems はコメントを受け付けていません

How compositional generalization and creativity improve as diffusion models are trained

要約

自然データは、多くの場合、機能の階層的な構成として編成されます。
組み合わせ数の新しいデータを生成するために、組成ルールを学習するために生成モデルはいくつのサンプルが必要ですか?
データのどのシグナルが学習するために悪用されますか?
これらの質問を理論的および経験的に調査します。
理論的には、言語や画像などのデータの構造を表すために使用される、単純な確率的コンテキストのない文法で訓練された拡散モデルを検討します。
拡散モデルは、統計的に類似したコンテキストを持つクラスタリング機能に必要なサンプルの複雑さで構成ルールを学習することを実証します。これは、Word2VECアルゴリズムと同様のプロセスです。
ただし、このクラスタリングは階層的に登場します。より長いコンテキストに関連する高レベルでより抽象的な機能には、より多くのデータを特定する必要があります。
このメカニズムは、上記のコンテキストサイズとともに多項式に拡大するサンプルの複雑さにつながります。
その結果、中間データセットサイズでトレーニングされた拡散モデルは、特定のスケールまで一貫性のあるデータを生成しますが、グローバルな一貫性がありません。
これらの予測をさまざまなドメインでテストし、顕著な一致を見つけます。生成されたテキストと画像の両方が、トレーニング時間またはデータセットサイズが大きくなるにつれて徐々に大きなコヒーレンスの長さを実現します。
ここで紹介する階層的クラスタリングメカニズムと物理学の繰り込みグループとの間のつながりについて説明します。

要約(オリジナル)

Natural data is often organized as a hierarchical composition of features. How many samples do generative models need to learn the composition rules, so as to produce a combinatorial number of novel data? What signal in the data is exploited to learn? We investigate these questions both theoretically and empirically. Theoretically, we consider diffusion models trained on simple probabilistic context-free grammars – tree-like graphical models used to represent the structure of data such as language and images. We demonstrate that diffusion models learn compositional rules with the sample complexity required for clustering features with statistically similar context, a process similar to the word2vec algorithm. However, this clustering emerges hierarchically: higher-level, more abstract features associated with longer contexts require more data to be identified. This mechanism leads to a sample complexity that scales polynomially with the said context size. As a result, diffusion models trained on intermediate dataset size generate data coherent up to a certain scale, but that lacks global coherence. We test these predictions in different domains, and find remarkable agreement: both generated texts and images achieve progressively larger coherence lengths as the training time or dataset size grows. We discuss connections between the hierarchical clustering mechanism we introduce here and the renormalization group in physics.

arxiv情報

著者 Alessandro Favero,Antonio Sclocchi,Francesco Cagnetta,Pascal Frossard,Matthieu Wyart
発行日 2025-02-17 18:06:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | How compositional generalization and creativity improve as diffusion models are trained はコメントを受け付けていません

SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

要約

SWE-Lancerを紹介します。これは、Upworkの1,400を超えるフリーランスソフトウェアエンジニアリングタスクのベンチマークで、実際の支払いで合計100万米ドルの価値があります。
SWE-Lancerには、\ $ 50のバグ修正から\ $ 32,000の機能実装までの独立したエンジニアリングタスクと、モデルが技術的な実装提案を選択する管理タスクの両方を含みます。
独立したタスクは、経験豊富なソフトウェアエンジニアによってトリプル検証されたエンドツーエンドテストで採点されますが、元の雇用されたエンジニアリングマネージャーの選択に対して管理上の決定が評価されます。
モデルのパフォーマンスを評価し、フロンティアモデルがまだタスクの大部分を解決できないことがわかります。
将来の研究を促進するために、統一されたDockerイメージとパブリック評価の分割であるSWE-Lancer Diamond(https://github.com/openai/swelancer-benchmark)をオープンソースします。
モデルのパフォーマンスを金銭的価値にマッピングすることにより、SWE-LancerがAIモデル開発の経済的影響に関するより多くの研究を可能にすることを願っています。

要約(オリジナル)

We introduce SWE-Lancer, a benchmark of over 1,400 freelance software engineering tasks from Upwork, valued at \$1 million USD total in real-world payouts. SWE-Lancer encompasses both independent engineering tasks–ranging from \$50 bug fixes to \$32,000 feature implementations–and managerial tasks, where models choose between technical implementation proposals. Independent tasks are graded with end-to-end tests triple-verified by experienced software engineers, while managerial decisions are assessed against the choices of the original hired engineering managers. We evaluate model performance and find that frontier models are still unable to solve the majority of tasks. To facilitate future research, we open-source a unified Docker image and a public evaluation split, SWE-Lancer Diamond (https://github.com/openai/SWELancer-Benchmark). By mapping model performance to monetary value, we hope SWE-Lancer enables greater research into the economic impact of AI model development.

arxiv情報

著者 Samuel Miserendino,Michele Wang,Tejal Patwardhan,Johannes Heidecke
発行日 2025-02-17 18:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering? はコメントを受け付けていません