Curvature Tuning: Provable Training-free Model Steering From a Single Parameter

要約

モデルとデータサイズのスケーリングにより、AIランドスケープが再構築され、下流タスクを解くための標準的なパラダイムとしての微調整前のモデルが確立されました。
ただし、支配的な微調整方法は通常、体重の適応に依存しており、多くの場合、解釈可能性が欠けており、ヒューリスティックに選択されたハイパーパラメーターに依存します。
この論文では、別の視点を取り、重みから活性化機能に焦点を移し、スプライン演算子のレンズを通してそれらを表示します。
単一のハイパーパラメーターを活性化関数に注入することにより、モデルの決定境界を変調する解釈可能かつ原則的なステアリング方法である曲率チューニング(CT)を提案します。
CTは、モデルの決定境界の曲率を証明し、より根本的に、モデルを滑らかな機能の空間に投影することを示しています。
このハイパーパラメーターをトレーニング可能にすることで、斬新で非常にパラメーター効率の高い微調整方法が生まれます。
経験的に、CTは一般化と堅牢性の両方を改善します。
たとえば、ResNet-50/152の下流の精度を、線形プロービングで7.14%/8.46%、12データセット全体でLORAで4.64%/1.70%で高め、1032.64%/1494.46%までに$ \ eLL_ \ inftty $ベンチマークの堅牢な精度を向上させます。
私たちのコードは、https://github.com/leon-leyang/curvature-tuningで入手できます。

要約(オリジナル)

The scaling of model and data sizes has reshaped the AI landscape, establishing finetuning pretrained models as the standard paradigm for solving downstream tasks. However, dominant finetuning methods typically rely on weight adaptation, often lack interpretability, and depend on heuristically chosen hyperparameters. In this paper, we take a different perspective and shift the focus from weights to activation functions, viewing them through the lens of spline operators. We propose Curvature Tuning (CT), an interpretable and principled steering method that modulates a model’s decision boundary by injecting a single hyperparameter into its activation functions. We show that CT provably adjusts model decision boundary curvature and, more fundamentally, projects a model onto a space of smooth functions-thereby complementing current finetuning methods, whose effect lies primarily in feature adaptation. Making this hyperparameter trainable gives rise to a novel and highly parameter-efficient finetuning method. Empirically, CT improves both generalization and robustness. For example, it boosts downstream accuracy of ResNet-50/152 by 7.14%/8.46% over linear probing and 4.64%/1.70% over LoRA across 12 datasets, and improves robust accuracy on the $\ell_\infty$ benchmark from RobustBench by 1032.64%/1494.46%. Our code is available at https://github.com/Leon-Leyang/curvature-tuning.

arxiv情報

著者 Leyang Hu,Matteo Gamba,Randall Balestriero
発行日 2025-06-11 17:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Curvature Tuning: Provable Training-free Model Steering From a Single Parameter はコメントを受け付けていません

Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs

要約

Vision-Language Models(VLMS)は、視覚入力に関する質問に答える(画像内のオブジェクトをカウントする)印象的な能力を示していますが、テキストで類似のタスクを実行するときにより高い精度を示します(例:テキストで単語をカウントする)。
この精度のギャップは、異なるモダリティで\ textit {circuits}(タスク固有の計算サブグラフ)を識別して比較することで調査します。
回路はモダリティ間で大部分がばらばらであるが、比較的類似した機能を実装することを示します。違いは主にモダリティ固有のデータ位置(画像またはテキストシーケンス)を処理することにあります。
画像データの表現をズームインすると、それらが後のレイヤーにのみ高性能に類似したテキスト表現と整合し、その後の位置に効果的に影響を与えるには処理が遅すぎることがわかります。
これを克服するために、後のレイヤーからの視覚データトークンの表現を以前のレイヤーに戻します。
複数のタスクとモデルを使用した実験では、この単純な介入は、平均して、モダリティ間のパフォーマンスギャップの3分の1を閉じます。
私たちの分析は、VLMSのマルチモーダルパフォーマンスギャップに光を当て、それを減らすためのトレーニングなしのアプローチを示唆しています。

要約(オリジナル)

Vision-Language models (VLMs) show impressive abilities to answer questions on visual inputs (e.g., counting objects in an image), yet demonstrate higher accuracies when performing an analogous task on text (e.g., counting words in a text). We investigate this accuracy gap by identifying and comparing the \textit{circuits} – the task-specific computational sub-graphs – in different modalities. We show that while circuits are largely disjoint between modalities, they implement relatively similar functionalities: the differences lie primarily in processing modality-specific data positions (an image or a text sequence). Zooming in on the image data representations, we observe they become aligned with the higher-performing analogous textual representations only towards later layers, too late in processing to effectively influence subsequent positions. To overcome this, we patch the representations of visual data tokens from later layers back into earlier layers. In experiments with multiple tasks and models, this simple intervention closes a third of the performance gap between the modalities, on average. Our analysis sheds light on the multi-modal performance gap in VLMs and suggests a training-free approach for reducing it.

arxiv情報

著者 Yaniv Nikankin,Dana Arad,Yossi Gandelsman,Yonatan Belinkov
発行日 2025-06-11 11:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T5, cs.CL, I.2.7 | Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs はコメントを受け付けていません

Fine-Grained Spatially Varying Material Selection in Images

要約

選択は、多くの画像編集プロセスの最初のステップであり、共通のモダリティを共有するすべてのピクセルのより速く、よりシンプルな変更を可能にします。
この作業では、画像に材料選択の方法を提示します。照明と反射率のバリエーションに堅牢で、ダウンストリームの編集タスクに使用できます。
Vision Transformer(VIT)モデルに依存し、選択の機能を活用して、以前の方法よりも細かく安定した選択結果をもたらす多解像度処理戦略を提案しています。
さらに、テクスチャとサブテクスチャの2つのレベルで選択を可能にします。テクスチャレベルとサブテクスチャレベルの両方で、800,000を超える合成画像の密な注釈を含む新しい2レベルの材料選択(DUMAS)データセットを活用します。

要約(オリジナル)

Selection is the first step in many image editing processes, enabling faster and simpler modifications of all pixels sharing a common modality. In this work, we present a method for material selection in images, robust to lighting and reflectance variations, which can be used for downstream editing tasks. We rely on vision transformer (ViT) models and leverage their features for selection, proposing a multi-resolution processing strategy that yields finer and more stable selection results than prior methods. Furthermore, we enable selection at two levels: texture and subtexture, leveraging a new two-level material selection (DuMaS) dataset which includes dense annotations for over 800,000 synthetic images, both on the texture and subtexture levels.

arxiv情報

著者 Julia Guerrero-Viu,Michael Fischer,Iliyan Georgiev,Elena Garces,Diego Gutierrez,Belen Masia,Valentin Deschaintre
発行日 2025-06-11 17:49:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Fine-Grained Spatially Varying Material Selection in Images はコメントを受け付けていません

MIRAGE: Multimodal foundation model and benchmark for comprehensive retinal OCT image analysis

要約

人工知能(AI)は、臨床医が光コヒーレンス断層撮影(OCT)などの眼科画像の分析を支援するための基本的なツールになっています。
ただし、AIモデルの開発には広範な注釈が必要であり、既存のモデルが独立した目に見えないデータでパフォーマンスが低下する傾向があります。
ファンデーションモデル(FMS)、広大な非標識データセットでトレーニングされた大規模なAIモデルは、これらの課題を克服することを約束しています。
それにもかかわらず、眼科で利用可能なFMSは、特にセグメンテーションタスクの広範な検証がありません。また、単一のイメージングモダリティに焦点を当てています。
これに関連して、OCTおよびスキャンレーザー眼鏡(SLO)画像の分析のための新しいマルチモーダルFMであるMirageを提案します。
さらに、OCT/SLO分類とセグメンテーションタスクを備えた新しい評価ベンチマークを提案します。
一般的および専門的なFMSおよびセグメンテーション方法との比較は、両方のタイプのタスクにおけるミラージュの優位性を示しており、網膜OCT画像分析のための堅牢なAIシステムの開発の基礎としての適合性を強調しています。
Mirageと評価ベンチマークの両方が公開されています:https://github.com/j-morano/mirage。

要約(オリジナル)

Artificial intelligence (AI) has become a fundamental tool for assisting clinicians in analyzing ophthalmic images, such as optical coherence tomography (OCT). However, developing AI models often requires extensive annotation, and existing models tend to underperform on independent, unseen data. Foundation models (FMs), large AI models trained on vast unlabeled datasets, have shown promise in overcoming these challenges. Nonetheless, available FMs for ophthalmology lack extensive validation, especially for segmentation tasks, and focus on a single imaging modality. In this context, we propose MIRAGE, a novel multimodal FM for the analysis of OCT and scanning laser ophthalmoscopy (SLO) images. Additionally, we propose a new evaluation benchmark with OCT/SLO classification and segmentation tasks. The comparison with general and specialized FMs and segmentation methods shows the superiority of MIRAGE in both types of tasks, highlighting its suitability as a basis for the development of robust AI systems for retinal OCT image analysis. Both MIRAGE and the evaluation benchmark are publicly available: https://github.com/j-morano/MIRAGE.

arxiv情報

著者 José Morano,Botond Fazekas,Emese Sükei,Ronald Fecso,Taha Emre,Markus Gumpinger,Georg Faustmann,Marzieh Oghbaie,Ursula Schmidt-Erfurth,Hrvoje Bogunović
発行日 2025-06-11 09:38:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MIRAGE: Multimodal foundation model and benchmark for comprehensive retinal OCT image analysis はコメントを受け付けていません

Do Multiple Instance Learning Models Transfer?

要約

複数のインスタンス学習(MIL)は、ギガピクセル組織画像から臨床的に意味のあるスライドレベルの埋め込みを生成するための計算病理学(CPATH)の基礎的アプローチです。
ただし、MILはしばしば、小規模で弱く監視されている臨床データセットに苦労しています。
NLPや従来のコンピュータービジョンなどのフィールドとは対照的に、転送学習がデータ不足に対処するために広く使用されているため、MILモデルの移動性はよく理解されていません。
この研究では、形態学的および分子サブタイプの予測の21の前提課題にわたって11のモデルを評価することにより、前処理されたMILモデルの転送学習能力を体系的に評価します。
私たちの結果は、ターゲットタスクとは異なる臓器で訓練されている場合でも、ゼロからトレーニングされたモデルよりも一貫してパフォーマンスを上げることができたことを示しています。
さらに、Pancancerデータセットでの事前供給により、臓器やタスク全体で強力な一般化が可能になり、事前に少ない前のデータを使用しながら、スライドファンデーションモデルを上回ります。
これらの調査結果は、MILモデルの堅牢な適応性を強調し、CPATHのパフォーマンスを高めるために転送学習を活用することの利点を示しています。
最後に、https://github.com/mahmoodlab/mil-labで入手可能な人気のあるCパスタスク上のMILモデルの実装と、事前に守られたモデルの重みのコレクションを標準化するリソースを提供します。

要約(オリジナル)

Multiple Instance Learning (MIL) is a cornerstone approach in computational pathology (CPath) for generating clinically meaningful slide-level embeddings from gigapixel tissue images. However, MIL often struggles with small, weakly supervised clinical datasets. In contrast to fields such as NLP and conventional computer vision, where transfer learning is widely used to address data scarcity, the transferability of MIL models remains poorly understood. In this study, we systematically evaluate the transfer learning capabilities of pretrained MIL models by assessing 11 models across 21 pretraining tasks for morphological and molecular subtype prediction. Our results show that pretrained MIL models, even when trained on different organs than the target task, consistently outperform models trained from scratch. Moreover, pretraining on pancancer datasets enables strong generalization across organs and tasks, outperforming slide foundation models while using substantially less pretraining data. These findings highlight the robust adaptability of MIL models and demonstrate the benefits of leveraging transfer learning to boost performance in CPath. Lastly, we provide a resource which standardizes the implementation of MIL models and collection of pretrained model weights on popular CPath tasks, available at https://github.com/mahmoodlab/MIL-Lab

arxiv情報

著者 Daniel Shao,Richard J. Chen,Andrew H. Song,Joel Runevic,Ming Y. Lu,Tong Ding,Faisal Mahmood
発行日 2025-06-11 11:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Do Multiple Instance Learning Models Transfer? はコメントを受け付けていません

SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems

要約

大規模な言語モデル(LLMS)およびビジョン言語モデル(VLM)の最近の進歩により、複雑な推論とマルチモーダルツールの使用が可能な強力な自律エージェントが可能になりました。
能力が高まっているにもかかわらず、今日のエージェントフレームワークは壊れやすいままであり、安全な情報の流れ、信頼性、およびマルチエージェント調整のための原則的なメカニズムがありません。
この作業では、信頼できるLLM/VLMベースのエージェントを構築するための新しいプロトコルレベルのフレームワークであるSafeflowを紹介します。
Safeflowは、エージェント、ツール、ユーザー、および環境間で交換されるすべてのデータの起源、完全性、および機密性を正確に追跡し、微調整された情報フロー制御(IFC)を実施します。
これらのセキュリティラベルを尊重するためにLLMの推論を制約することにより、Safeflowは、信頼できないまたは敵対的なインプットが高統合の決定を汚染することを防ぎます。
同時マルチエージェント設定の堅牢性を確保するために、Safeflowは、共有状態よりもトランザクション実行、競合解決、および安全なスケジューリングを導入し、エージェント間のグローバルな一貫性を維持します。
さらに、書き込みログ、ロールバック、安全なキャッシュなどのメカニズムを導入し、ランタイムエラーやポリシー違反に対する回復力をさらに高めます。
パフォーマンスを検証するために、敵対的、騒々しい、および同時運用条件の下でエージェントの信頼性を評価するために設計された包括的なベンチマークスイートであるSafeflowBenchを構築しました。
大規模な実験は、Safeflowで構築されたエージェントが、敵対的な環境でさえも印象的なタスクのパフォーマンスとセキュリティ保証を維持し、最先端を大幅に上回ることを示しています。
SafeflowとSafeflowbenchを合わせて、原則的で堅牢で安全なエージェントエコシステムの基礎を築き、信頼できる自律性のフロンティアを前進させます。

要約(オリジナル)

Recent advances in large language models (LLMs) and vision-language models (VLMs) have enabled powerful autonomous agents capable of complex reasoning and multi-modal tool use. Despite their growing capabilities, today’s agent frameworks remain fragile, lacking principled mechanisms for secure information flow, reliability, and multi-agent coordination. In this work, we introduce SAFEFLOW, a new protocol-level framework for building trustworthy LLM/VLM-based agents. SAFEFLOW enforces fine-grained information flow control (IFC), precisely tracking provenance, integrity, and confidentiality of all the data exchanged between agents, tools, users, and environments. By constraining LLM reasoning to respect these security labels, SAFEFLOW prevents untrusted or adversarial inputs from contaminating high-integrity decisions. To ensure robustness in concurrent multi-agent settings, SAFEFLOW introduces transactional execution, conflict resolution, and secure scheduling over shared state, preserving global consistency across agents. We further introduce mechanisms, including write-ahead logging, rollback, and secure caches, that further enhance resilience against runtime errors and policy violations. To validate the performances, we built SAFEFLOWBENCH, a comprehensive benchmark suite designed to evaluate agent reliability under adversarial, noisy, and concurrent operational conditions. Extensive experiments demonstrate that agents built with SAFEFLOW maintain impressive task performance and security guarantees even in hostile environments, substantially outperforming state-of-the-art. Together, SAFEFLOW and SAFEFLOWBENCH lay the groundwork for principled, robust, and secure agent ecosystems, advancing the frontier of reliable autonomy.

arxiv情報

著者 Peiran Li,Xinkai Zou,Zhuohang Wu,Ruifeng Li,Shuo Xing,Hanwen Zheng,Zhikai Hu,Yuping Wang,Haoxi Li,Qin Yuan,Yingmo Zhang,Zhengzhong Tu
発行日 2025-06-11 03:14:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems はコメントを受け付けていません

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models

要約

大規模な言語モデル(LLMS)は推論に優れていますが、トレーニング後の動作をタスクの目標に合わせるためには依然として重要です。
既存の強化学習(RL)方法は、多くの場合、費用のかかる人間の注釈または外部報酬モデルに依存します。
自信(RLSC)を介した強化学習を提案します。これは、モデル自身の自信を報酬信号として使用し、ラベル、優先モデル、または報酬エンジニアリングの必要性を有効にします。
QWEN2.5-MATH-7Bには、質問ごとに16のサンプルと10または20のトレーニングステップのみで適用されたRLSCは、AIME2024で +13.4%、Math500で +21.7%、Olympiadbenchで +20.8%、AMC23で +9.7%で精度を改善します。
RLSCは、推論モデルにシンプルでスケーラブルなトレーニング後の方法を提供し、少数のサンプルと非標識監督のみを必要とします。

要約(オリジナル)

Large language models (LLMs) excel at reasoning, yet post-training remains critical for aligning their behavior with task goals. Existing reinforcement learning (RL) methods often depend on costly human annotations or external reward models. We propose Reinforcement Learning via Self-Confidence (RLSC), which uses the model’s own confidence as reward signals-eliminating the need for labels, preference models, or reward engineering. Applied to Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps, RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a simple, scalable post-training method for inference models, requiring only a small number of samples and unlabelled supervision.

arxiv情報

著者 Pengyi Li,Matvey Skripkin,Alexander Zubrey,Andrey Kuznetsov,Ivan Oseledets
発行日 2025-06-11 06:21:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models はコメントを受け付けていません

AdversariaL attacK sAfety aLIgnment(ALKALI): Safeguarding LLMs through GRACE: Geometric Representation-Aware Contrastive Enhancement- Introducing Adversarial Vulnerability Quality Index (AVQI)

要約

LLMに対する敵対的な脅威は、現在の防御が適応できるよりも速くエスカレートしています。
重要な幾何学的死角を整列させます:敵対的なプロンプトは潜在的なカモフラージュを活用し、安全でない意図をコードしながら安全な表現マニホールドに危険にさらされ、直接的な誘惑最適化(DPO)のような表面緩和を回避します。
3つのマクロカテゴリ、6つのサブタイプ、15の攻撃ファミリーにわたって、最初の厳密にキュレーションされた敵対的なベンチマークであり、これまでで最も包括的な9,000プロンプトに及ぶアルカリを紹介します。
21の主要なLLMSの評価により、オープンソースモデルとクローズドソースモデルの両方で驚くほど高い攻撃成功率(ASR)が明らかになり、潜在的な脆弱性と呼ばれる潜在的な脆弱性を暴露します。
この脆弱性を緩和するために、Grace -Geometric Lepressation eal areare Contrastive Enhancement、Alignment Frameworkのカップリング優先学習を潜在的な空間の正則化と紹介します。
グレースは、2つの制約を実施します。安全性と敵対的な完了の間の潜在的な分離と、危険な行動と脱獄行動の間の敵対的な結束です。
これらは、学習した注意プロファイルによって誘導された層状にプールされた埋め込みを介して動作し、ベースモデルを変更せずに内部ジオメトリを再形成し、最大39%のASR削減を達成します。
さらに、クラスター分離とコンパクトさを介して潜在的なアライメント障害を定量化する幾何学的認識メトリックであるAvqiを紹介します。
Avqiは、安全でない完了が安全なもののジオメトリを模倣したときに明らかになり、モデルが内部的に安全性をエンコードする方法に原則的なレンズを提供します。
https://anonymous.4open.science/r/alkali-b416/readme.mdでコードを公開しています。

要約(オリジナル)

Adversarial threats against LLMs are escalating faster than current defenses can adapt. We expose a critical geometric blind spot in alignment: adversarial prompts exploit latent camouflage, embedding perilously close to the safe representation manifold while encoding unsafe intent thereby evading surface level defenses like Direct Preference Optimization (DPO), which remain blind to the latent geometry. We introduce ALKALI, the first rigorously curated adversarial benchmark and the most comprehensive to date spanning 9,000 prompts across three macro categories, six subtypes, and fifteen attack families. Evaluation of 21 leading LLMs reveals alarmingly high Attack Success Rates (ASRs) across both open and closed source models, exposing an underlying vulnerability we term latent camouflage, a structural blind spot where adversarial completions mimic the latent geometry of safe ones. To mitigate this vulnerability, we introduce GRACE – Geometric Representation Aware Contrastive Enhancement, an alignment framework coupling preference learning with latent space regularization. GRACE enforces two constraints: latent separation between safe and adversarial completions, and adversarial cohesion among unsafe and jailbreak behaviors. These operate over layerwise pooled embeddings guided by a learned attention profile, reshaping internal geometry without modifying the base model, and achieve up to 39% ASR reduction. Moreover, we introduce AVQI, a geometry aware metric that quantifies latent alignment failure via cluster separation and compactness. AVQI reveals when unsafe completions mimic the geometry of safe ones, offering a principled lens into how models internally encode safety. We make the code publicly available at https://anonymous.4open.science/r/alkali-B416/README.md.

arxiv情報

著者 Danush Khanna,Krishna Kumar,Basab Ghosh,Vinija Jain,Vasu Sharma,Aman Chadha,Amitava Das
発行日 2025-06-11 05:27:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | AdversariaL attacK sAfety aLIgnment(ALKALI): Safeguarding LLMs through GRACE: Geometric Representation-Aware Contrastive Enhancement- Introducing Adversarial Vulnerability Quality Index (AVQI) はコメントを受け付けていません

SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner

要約

テスト駆動型開発(TDD)に基づいた新しいデータ合成フレームワークである** Swe-Flow **を紹介します。
既存のソフトウェアエンジニアリングデータとは異なり、人間がサビされた問題に依存すると、** swe-flow **は、本質的に高レベルの要件をカプセル化するユニットテストから直接的な開発ステップを自動的に導きます。
** swe-flow **のコアは、機能相互作用を正確にキャプチャし、構造化された段階的な*開発スケジュール*の生成を可能にするランタイム依存性グラフ(RDG)の構築です。
各ステップで、** swe-flow **は、部分的なコードベース、対応する単位テスト、および必要なコード変更を生成し、完全に検証可能なTDDタスクをもたらします。
このアプローチにより、実際のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、** swe-flow-val **ベンチマークを作成しました。
私たちの実験は、このデータセットの微調整オープンモデルがTDDベースのコーディングのパフォーマンスを大幅に改善することを示しています。
さらなる調査を容易にするために、[github](https://github.com/hambaobao/swe-flow)ですべてのコード、データセット、モデル、およびDocker画像をリリースします。

要約(オリジナル)

We introduce **SWE-Flow**, a novel data synthesis framework grounded in Test-Driven Development (TDD). Unlike existing software engineering data that rely on human-submitted issues, **SWE-Flow** automatically infers incremental development steps directly from unit tests, which inherently encapsulate high-level requirements. The core of **SWE-Flow** is the construction of a Runtime Dependency Graph (RDG), which precisely captures function interactions, enabling the generation of a structured, step-by-step *development schedule*. At each step, **SWE-Flow** produces a partial codebase, the corresponding unit tests, and the necessary code modifications, resulting in fully verifiable TDD tasks. With this approach, we generated 16,061 training instances and 2,020 test instances from real-world GitHub projects, creating the **SWE-Flow-Eval** benchmark. Our experiments show that fine-tuning open model on this dataset significantly improves performance in TDD-based coding. To facilitate further research, we release all code, datasets, models, and Docker images at [Github](https://github.com/Hambaobao/SWE-Flow).

arxiv情報

著者 Lei Zhang,Jiaxi Yang,Min Yang,Jian Yang,Mouxiang Chen,Jiajun Zhang,Zeyu Cui,Binyuan Hui,Junyang Lin
発行日 2025-06-11 03:30:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner はコメントを受け付けていません

UD-KSL Treebank v1.3: A semi-automated framework for aligning XPOS-extracted units with UPOS tags

要約

本研究では、XPOSシーケンスから形態系構造を識別し、それらの構造を対応するUPOカテゴリに合わせた半自動化されたフレームワークを導入することにより、第2言語(L2)韓国の普遍的な依存関係に関する最近の研究を拡張しています。
また、論争的なエッセイから2,998件の新しい文章を注釈することにより、既存のL2-Koreanコーパスを拡大します。
Xpos-uposアラインメントの影響を評価するために、2つのNLPツールキットを使用して、これらのアライメントの有無にかかわらず、データセットのL2-KOREAN MOLPHOSYNTACTIC分析モデルを微調整します。
我々の結果は、アラインドされたデータセットが注釈層全体の一貫性を改善するだけでなく、特に限られた注釈付きデータの場合に、形態系タグ付けと依存関係の精度を向上させることを示しています。

要約(オリジナル)

The present study extends recent work on Universal Dependencies annotations for second-language (L2) Korean by introducing a semi-automated framework that identifies morphosyntactic constructions from XPOS sequences and aligns those constructions with corresponding UPOS categories. We also broaden the existing L2-Korean corpus by annotating 2,998 new sentences from argumentative essays. To evaluate the impact of XPOS-UPOS alignments, we fine-tune L2-Korean morphosyntactic analysis models on datasets both with and without these alignments, using two NLP toolkits. Our results indicate that the aligned dataset not only improves consistency across annotation layers but also enhances morphosyntactic tagging and dependency-parsing accuracy, particularly in cases of limited annotated data.

arxiv情報

著者 Hakyung Sung,Gyu-Ho Shin,Chanyoung Lee,You Kyung Sung,Boo Kyung Jung
発行日 2025-06-11 05:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | UD-KSL Treebank v1.3: A semi-automated framework for aligning XPOS-extracted units with UPOS tags はコメントを受け付けていません