Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model

要約

大規模なオーディオ言語モデル(LALMS)は、インテリジェントなヒューマンコンピューターの相互作用を大幅に進めていますが、テキストベースの出力への依存により、自然な音声応答を直接生成する能力が制限され、シームレスなオーディオインタラクションが妨げられます。
これに対処するために、Audio-Query-Audio Answer(AQAA)タスク用に設計された完全なエンドツーエンドのラルムであるStep-Audio-Aqaaを紹介します。
このモデルは、言語およびセマンティック特徴の抽出用のデュアルコードブ​​ックオーディオトークナイザー、130億パラメーターバックボーンLLM、および高忠実度の音声合成のためのニューラルボコーダーを統合します。
トレーニング後のアプローチでは、インターリーブしたテキストとオーディオのトークン出力を採用してセマンティックコヒーレンスを強化し、直接優先最適化(DPO)とモデルマージを組み合わせてパフォーマンスを向上させます。
Stepeval-Audio-360ベンチマークの評価は、Step-Audio-AQAAが特に音声制御に優れており、主要な領域の最先端のラームを上回ることを示しています。
この作業は、エンドツーエンドのラームの有望なソリューションに貢献し、AQAAタスクの全体的なパフォーマンスを向上させる上でトークンベースのボコーダーの重要な役割を強調しています。

要約(オリジナル)

Large Audio-Language Models (LALMs) have significantly advanced intelligent human-computer interaction, yet their reliance on text-based outputs limits their ability to generate natural speech responses directly, hindering seamless audio interactions. To address this, we introduce Step-Audio-AQAA, a fully end-to-end LALM designed for Audio Query-Audio Answer (AQAA) tasks. The model integrates a dual-codebook audio tokenizer for linguistic and semantic feature extraction, a 130-billion-parameter backbone LLM and a neural vocoder for high-fidelity speech synthesis. Our post-training approach employs interleaved token-output of text and audio to enhance semantic coherence and combines Direct Preference Optimization (DPO) with model merge to improve performance. Evaluations on the StepEval-Audio-360 benchmark demonstrate that Step-Audio-AQAA excels especially in speech control, outperforming the state-of-art LALMs in key areas. This work contributes a promising solution for end-to-end LALMs and highlights the critical role of token-based vocoder in enhancing overall performance for AQAA tasks.

arxiv情報

著者 Ailin Huang,Bingxin Li,Bruce Wang,Boyong Wu,Chao Yan,Chengli Feng,Heng Wang,Hongyu Zhou,Hongyuan Wang,Jingbei Li,Jianjian Sun,Joanna Wang,Mingrui Chen,Peng Liu,Ruihang Miao,Shilei Jiang,Tian Fei,Wang You,Xi Chen,Xuerui Yang,Yechang Huang,Yuxiang Zhang,Zheng Ge,Zheng Gong,Zhewei Huang,Zixin Zhang,Bin Wang,Bo Li,Buyun Ma,Changxin Miao,Changyi Wan,Chen Xu,Dapeng Shi,Dingyuan Hu,Enle Liu,Guanzhe Huang,Gulin Yan,Hanpeng Hu,Haonan Jia,Jiahao Gong,Jiaoren Wu,Jie Wu,Jie Yang,Junzhe Lin,Kaixiang Li,Lei Xia,Longlong Gu,Ming Li,Nie Hao,Ranchen Ming,Shaoliang Pang,Siqi Liu,Song Yuan,Tiancheng Cao,Wen Li,Wenqing He,Xu Zhao,Xuelin Zhang,Yanbo Yu,Yinmin Zhong,Yu Zhou,Yuanwei Liang,Yuanwei Lu,Yuxiang Yang,Zidong Yang,Zili Zhang,Binxing Jiao,Heung-Yeung Shum,Jiansheng Chen,Jing Li,Xiangyu Zhang,Xinhao Zhang,Yibo Zhu,Daxin Jiang,Shuchang Zhou,Chen Hu
発行日 2025-06-10 16:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model はコメントを受け付けていません

Atomic-to-Compositional Generalization for Mobile Agents with A New Benchmark and Scheduling System

要約

モバイルデバイスでのタスクの実行を容易にするために、マルチモーダルの大手言語モデルを搭載した自律エージェントが開発されました。
ただし、以前の作業では、ショットチェーン実行タスクやシングルスクリーン接地タスクなどの原子タスクに焦点を当てていますが、実際のアプリケーションに不可欠な構成タスクに一般化を見落としています。
この作業では、3つのカテゴリの組成操作、単純な連結、コンテキスト遷移、ディープダイブでモバイルエージェントを評価するために設計された包括的なベンチマークであるUI-Nexusを紹介します。
UI-Nexusは、20の完全に制御可能なローカルユーティリティアプリ環境と30のオンライン中国語および英語のサービスアプリでのインタラクティブな評価をサポートしています。
100のインタラクティブタスクテンプレートで構成され、平均最適なステップカウントは14.05です。
エージェントワークフローまたはエージェントとしてのモバイルエージェントを備えたさまざまなモバイルエージェントにわたる実験結果は、UI-Nexusが重要な課題を示していることを示しています。
具体的には、既存のエージェントは一般に、パフォーマンスと効率のバランスをとるのに苦労しており、解釈不足、過剰解放、注意ドリフトなどの代表的な障害モードを示し、目に見える原子間一般化ギャップを引き起こします。
これらの調査結果に触発されて、私たちは、組成モバイルタスクに取り組むための軽量で効率的なスケジューリングシステムであるAgent-Nexusを提案します。
エージェントネックスは、一連の自己完結型の原子サブタスクに長距離タスクを動的に分解することにより、既存のモバイルエージェントの能力を推定します。
Agent-Nexusは、推論のオーバーヘッドを大幅に犠牲にすることなく、UI-Nexusベンチマーク内の組成操作タスクに関する既存のモバイルエージェントの24%から40%のタスク成功率の改善を達成します。
デモビデオ、データセット、およびコードは、https://ui-nexus.github.ioのプロジェクトページで入手できます。

要約(オリジナル)

Autonomous agents powered by multimodal large language models have been developed to facilitate task execution on mobile devices. However, prior work has predominantly focused on atomic tasks — such as shot-chain execution tasks and single-screen grounding tasks — while overlooking the generalization to compositional tasks, which are indispensable for real-world applications. This work introduces UI-NEXUS, a comprehensive benchmark designed to evaluate mobile agents on three categories of compositional operations: Simple Concatenation, Context Transition, and Deep Dive. UI-NEXUS supports interactive evaluation in 20 fully controllable local utility app environments, as well as 30 online Chinese and English service apps. It comprises 100 interactive task templates with an average optimal step count of 14.05. Experimental results across a range of mobile agents with agentic workflow or agent-as-a-model show that UI-NEXUS presents significant challenges. Specifically, existing agents generally struggle to balance performance and efficiency, exhibiting representative failure modes such as under-execution, over-execution, and attention drift, causing visible atomic-to-compositional generalization gap. Inspired by these findings, we propose AGENT-NEXUS, a lightweight and efficient scheduling system to tackle compositional mobile tasks. AGENT-NEXUS extrapolates the abilities of existing mobile agents by dynamically decomposing long-horizon tasks to a series of self-contained atomic subtasks. AGENT-NEXUS achieves 24% to 40% task success rate improvement for existing mobile agents on compositional operation tasks within the UI-NEXUS benchmark without significantly sacrificing inference overhead. The demo video, dataset, and code are available on the project page at https://ui-nexus.github.io.

arxiv情報

著者 Yuan Guo,Tingjia Miao,Zheng Wu,Pengzhou Cheng,Ming Zhou,Zhuosheng Zhang
発行日 2025-06-10 16:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Atomic-to-Compositional Generalization for Mobile Agents with A New Benchmark and Scheduling System はコメントを受け付けていません

FROST-EMA: Finnish and Russian Oral Speech Dataset of Electromagnetic Articulography Measurements with L1, L2 and Imitated L2 Accents

要約

新しい霜-EMA(フィンランド語とロシアの口頭発話データセットの電磁アーチキログラフィー)を紹介します。
これは、母国語(L1)、第二言語(L2)、および模倣L2(偽の外国のアクセント)でスピーチを生成した18人のバイリンガルスピーカーで構成されています。
新しいコーパスは、音声および技術的観点からの言語の変動性の研究を可能にします。
したがって、両方の視点を実証するために、2つの予備的なケーススタディを含めます。
最初のケーススタディでは、L2とL2の自動スピーカー検証システムのパフォーマンスに対する模倣の影響を調査し、2番目のケースはL1、L2、および偽のアクセントの1つのスピーカーの関節パターンを示しています。

要約(オリジナル)

We introduce a new FROST-EMA (Finnish and Russian Oral Speech Dataset of Electromagnetic Articulography) corpus. It consists of 18 bilingual speakers, who produced speech in their native language (L1), second language (L2), and imitated L2 (fake foreign accent). The new corpus enables research into language variability from phonetic and technological points of view. Accordingly, we include two preliminary case studies to demonstrate both perspectives. The first case study explores the impact of L2 and imitated L2 on the performance of an automatic speaker verification system, while the second illustrates the articulatory patterns of one speaker in L1, L2, and a fake accent.

arxiv情報

著者 Satu Hopponen,Tomi Kinnunen,Alexandre Nikolaev,Rosa González Hautamäki,Lauri Tavi,Einar Meister
発行日 2025-06-10 16:52:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | FROST-EMA: Finnish and Russian Oral Speech Dataset of Electromagnetic Articulography Measurements with L1, L2 and Imitated L2 Accents はコメントを受け付けていません

PrisonBreak: Jailbreaking Large Language Models with Fewer Than Twenty-Five Targeted Bit-flips

要約

モデルパラメーターのターゲットを絞ったビットワイズ腐敗を通じてジェイルブレイクを誘発する商業規模の(人間に合わせた)言語モデルに対する新しいクラスの攻撃を導入します。
私たちの敵は、すべての場合に25ビットフリップで25未満のビットフリップを持つ10億パラメーターの言語モデルを脱獄することができます。
迅速な脱獄とは異なり、攻撃は実行時にこれらのモデルをメモリに「無修正」にし、入力変更なしで有害な応答を生成できるようにします。
攻撃アルゴリズムは、ターゲットビットを効率的に識別してフリップし、以前の方法よりも最大20 $ \ Times $の計算効率を提供します。
これにより、数十億のパラメーターを備えた言語モデルにとって実用的になります。
ソフトウェア誘導障害注入であるRowhammer(RH)を使用して、攻撃のエンドツーエンドの搾取を示します。
私たちの作業では、異なるRH脆弱性を持つDDR4およびLPDDR4Xデバイスからの56のDRAM RHプロファイルを調べます。
私たちの攻撃は、以前のビットフリップ攻撃の影響を受けたものと同様のシステムでの脱獄を確実に誘発できることを示しています。
さらに、私たちのアプローチは、非常にRHセクチャーシステムに対しても効果的なままです(たとえば、以前にテストしたシステムよりも安全な46 $ \ Times $)。
私たちの分析では、次のことがさらに明らかになりました。(1)トレーニング後のアラインメントが少ないモデルでは、脱獄のビットフリップが少なくなります。
(2)値投影層などの特定のモデルコンポーネントは、他のモデルよりもかなり脆弱です。
(3)私たちの方法は、既存の脱獄と機械的に異なります。
私たちの調査結果は、言語モデルのエコシステムに対する差し迫った実用的な脅威を強調し、これらのモデルをビットフリップ攻撃から保護するための研究の必要性を強調しています。

要約(オリジナル)

We introduce a new class of attacks on commercial-scale (human-aligned) language models that induce jailbreaking through targeted bitwise corruptions in model parameters. Our adversary can jailbreak billion-parameter language models with fewer than 25 bit-flips in all cases$-$and as few as 5 in some$-$using up to 40$\times$ less bit-flips than existing attacks on computer vision models at least 100$\times$ smaller. Unlike prompt-based jailbreaks, our attack renders these models in memory ‘uncensored’ at runtime, allowing them to generate harmful responses without any input modifications. Our attack algorithm efficiently identifies target bits to flip, offering up to 20$\times$ more computational efficiency than previous methods. This makes it practical for language models with billions of parameters. We show an end-to-end exploitation of our attack using software-induced fault injection, Rowhammer (RH). Our work examines 56 DRAM RH profiles from DDR4 and LPDDR4X devices with different RH vulnerabilities. We show that our attack can reliably induce jailbreaking in systems similar to those affected by prior bit-flip attacks. Moreover, our approach remains effective even against highly RH-secure systems (e.g., 46$\times$ more secure than previously tested systems). Our analyses further reveal that: (1) models with less post-training alignment require fewer bit flips to jailbreak; (2) certain model components, such as value projection layers, are substantially more vulnerable than others; and (3) our method is mechanistically different than existing jailbreaks. Our findings highlight a pressing, practical threat to the language model ecosystem and underscore the need for research to protect these models from bit-flip attacks.

arxiv情報

著者 Zachary Coalson,Jeonghyun Woo,Yu Sun,Shiyang Chen,Lishan Yang,Prashant Nair,Bo Fang,Sanghyun Hong
発行日 2025-06-10 16:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | PrisonBreak: Jailbreaking Large Language Models with Fewer Than Twenty-Five Targeted Bit-flips はコメントを受け付けていません

Naturalistic Language-related Movie-Watching fMRI Task for Detecting Neurocognitive Decline and Disorder

要約

早期の検出は、高齢者の間で一般的かつ重大な健康問題である神経認知障害(NCD)の進行を防止および遅くすることを目的としたタイムリーな介入にとって重要です。
最近の証拠は、言語関連の機能的磁気共鳴イメージング(fMRI)が、認知機能低下と早期NCDを検出するための有望なアプローチである可能性があることを示唆しています。
この論文では、この目的のために、斬新で自然主義的な言語関連のfMRIタスクを提案しました。
香港の97人の非認知症の中国人高齢者の間で、このタスクの有効性を調べました。
結果は、fMRI機能に基づくマシンラーニング分類モデルがタスクと人口統計(年齢、性別、教育年)から抽出されたマシンラーニング分類モデルが、参加者の認知状態を分類するときに0.86の曲線下で平均領域を達成したことを示しました(標準的な神経認知テストのスコアに基づいて通常と衰退するとラベル付けされています)。
特徴のローカリゼーションにより、fMRI機能は、データ駆動型アプローチによって最も頻繁に選択される特徴が、主に上側頭回、中間側回、右小脳などの言語処理に関連する脳領域から来たことが明らかになりました。
この研究は、老化関連の認知機能低下とNCDを早期に検出するための自然主義的言語関連のfMRIタスクの可能性を実証しました。

要約(オリジナル)

Early detection is crucial for timely intervention aimed at preventing and slowing the progression of neurocognitive disorder (NCD), a common and significant health problem among the aging population. Recent evidence has suggested that language-related functional magnetic resonance imaging (fMRI) may be a promising approach for detecting cognitive decline and early NCD. In this paper, we proposed a novel, naturalistic language-related fMRI task for this purpose. We examined the effectiveness of this task among 97 non-demented Chinese older adults from Hong Kong. The results showed that machine-learning classification models based on fMRI features extracted from the task and demographics (age, gender, and education year) achieved an average area under the curve of 0.86 when classifying participants’ cognitive status (labeled as NORMAL vs DECLINE based on their scores on a standard neurcognitive test). Feature localization revealed that the fMRI features most frequently selected by the data-driven approach came primarily from brain regions associated with language processing, such as the superior temporal gyrus, middle temporal gyrus, and right cerebellum. The study demonstrated the potential of the naturalistic language-related fMRI task for early detection of aging-related cognitive decline and NCD.

arxiv情報

著者 Yuejiao Wang,Xianmin Gong,Xixin Wu,Patrick Wong,Hoi-lam Helene Fung,Man Wai Mak,Helen Meng
発行日 2025-06-10 16:58:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Naturalistic Language-related Movie-Watching fMRI Task for Detecting Neurocognitive Decline and Disorder はコメントを受け付けていません

DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments

要約

大規模な言語モデル(LLM)エージェントは、人間の言語の理解と推論に印象的な能力を示していますが、サイバーセキュリティの可能性は未習性のままです。
攻撃、防衛、およびサイバーセキュリティの知識ベースのタスクを介して言語エージェントを評価するための実用的でオープンソースツールキットであるDefenderBenchを紹介します。
DefenderBenchには、ネットワーク侵入の環境、悪意のあるコンテンツの検出、コードの脆弱性分析、サイバーセキュリティの知識評価が含まれます。
公正かつ厳密な評価を提供しながら、研究者にとって手頃な価格で簡単にアクセスできるように意図的に設計されています。
標準化されたエージェントフレームワークを使用して、オープンおよび閉じた重量モデルの両方を含む、いくつかの最先端(SOTA)と人気のLLMをベンチマークします。
我々の結果は、Claude-3.7-Sonnetが81.65のDefenderBenchスコアで最高のパフォーマンスを発揮し、78.40でClaude-3.7-Sonnet-Thinkが続いていることを示しています。
DefenderBenchのモジュラー設計により、カスタムLLMとタスクのシームレスな統合が可能になり、再現性と公正な比較が促進されます。
DefenderBenchの匿名バージョンは、https://github.com/microsoft/defenderbenchで入手できます。

要約(オリジナル)

Large language model (LLM) agents have shown impressive capabilities in human language comprehension and reasoning, yet their potential in cybersecurity remains underexplored. We introduce DefenderBench, a practical, open-source toolkit for evaluating language agents across offense, defense, and cybersecurity knowledge-based tasks. DefenderBench includes environments for network intrusion, malicious content detection, code vulnerability analysis, and cybersecurity knowledge assessment. It is intentionally designed to be affordable and easily accessible for researchers while providing fair and rigorous assessment. We benchmark several state-of-the-art (SoTA) and popular LLMs, including both open- and closed-weight models, using a standardized agentic framework. Our results show that Claude-3.7-sonnet performs best with a DefenderBench score of 81.65, followed by Claude-3.7-sonnet-think with 78.40, while the best open-weight model, Llama 3.3 70B, is not far behind with a DefenderBench score of 71.81. DefenderBench’s modular design allows seamless integration of custom LLMs and tasks, promoting reproducibility and fair comparisons. An anonymized version of DefenderBench is available at https://github.com/microsoft/DefenderBench.

arxiv情報

著者 Chiyu Zhang,Marc-Alexandre Cote,Michael Albada,Anush Sankaran,Jack W. Stokes,Tong Wang,Amir Abdi,William Blum,Muhammad Abdul-Mageed
発行日 2025-06-10 17:00:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments はコメントを受け付けていません

SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning

要約

検証可能な報酬(RLVR)による強化学習は、数学的問題解決などの複雑な推論タスクに関する大規模な言語モデル(LLM)をトレーニングするのに効果的であることが証明されています。
RLVRのスケーラビリティの前提条件は、正確で検証可能な回答を伴う高品質の問題です。
ただし、既存の蒸留指向の合成データセットにおける、巧妙に作られた人間標識数学の問題と制限された回答の希少性は、RLの有効性を制限します。
さらに、ほとんどの問題合成戦略は、モデルの機能を考慮せずに問題セットを無差別に拡張し、有用な質問を生成する効率が低くなります。
この問題を軽減するために、モデルの欠陥を体系的に識別し、問題の増強のためにそれらを活用する自己認識の衰弱型の問題合成フレームワーク(SWS)を紹介します。
具体的には、RLトレーニング中の反復サンプリングを通じてモデルが一貫して学習できないという質問として弱点を定義します。
次に、これらの障害ケースからコア概念を抽出し、新しい問題を統合して、その後の拡張トレーニングでモデルの弱点を強化し、その弱点に焦点を合わせて徐々に克服できるようにします。
外部の知識の蒸留に依存せずに、当社のフレームワークにより、モデルがRLの弱点を自己識別し、対処するために堅牢な一般化を可能にし、7Bおよび32Bモデルで10.0%と7.7%の平均パフォーマンスの向上をもたらします。

要約(オリジナル)

Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for training large language models (LLMs) on complex reasoning tasks, such as mathematical problem solving. A prerequisite for the scalability of RLVR is a high-quality problem set with precise and verifiable answers. However, the scarcity of well-crafted human-labeled math problems and limited-verification answers in existing distillation-oriented synthetic datasets limit their effectiveness in RL. Additionally, most problem synthesis strategies indiscriminately expand the problem set without considering the model’s capabilities, leading to low efficiency in generating useful questions. To mitigate this issue, we introduce a Self-aware Weakness-driven problem Synthesis framework (SwS) that systematically identifies model deficiencies and leverages them for problem augmentation. Specifically, we define weaknesses as questions that the model consistently fails to learn through its iterative sampling during RL training. We then extract the core concepts from these failure cases and synthesize new problems to strengthen the model’s weak areas in subsequent augmented training, enabling it to focus on and gradually overcome its weaknesses. Without relying on external knowledge distillation, our framework enables robust generalization byempowering the model to self-identify and address its weaknesses in RL, yielding average performance gains of 10.0% and 7.7% on 7B and 32B models across eight mainstream reasoning benchmarks.

arxiv情報

著者 Xiao Liang,Zhong-Zhi Li,Yeyun Gong,Yang Wang,Hengyuan Zhang,Yelong Shen,Ying Nian Wu,Weizhu Chen
発行日 2025-06-10 17:02:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning はコメントを受け付けていません

SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner

要約

テスト駆動型開発(TDD)に基づいた新しいデータ合成フレームワークである** Swe-Flow **を紹介します。
既存のソフトウェアエンジニアリングデータとは異なり、人間がサビされた問題に依存すると、** swe-flow **は、本質的に高レベルの要件をカプセル化するユニットテストから直接的な開発ステップを自動的に導きます。
** swe-flow **のコアは、機能相互作用を正確にキャプチャし、構造化された段階的な*開発スケジュール*の生成を可能にするランタイム依存性グラフ(RDG)の構築です。
各ステップで、** swe-flow **は、部分的なコードベース、対応する単位テスト、および必要なコード変更を生成し、完全に検証可能なTDDタスクをもたらします。
このアプローチにより、実際のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、** swe-flow-val **ベンチマークを作成しました。
私たちの実験は、このデータセットの微調整オープンモデルがTDDベースのコーディングのパフォーマンスを大幅に改善することを示しています。
さらなる調査を容易にするために、[github](https://github.com/hambaobao/swe-flow)ですべてのコード、データセット、モデル、およびDocker画像をリリースします。

要約(オリジナル)

We introduce **SWE-Flow**, a novel data synthesis framework grounded in Test-Driven Development (TDD). Unlike existing software engineering data that rely on human-submitted issues, **SWE-Flow** automatically infers incremental development steps directly from unit tests, which inherently encapsulate high-level requirements. The core of **SWE-Flow** is the construction of a Runtime Dependency Graph (RDG), which precisely captures function interactions, enabling the generation of a structured, step-by-step *development schedule*. At each step, **SWE-Flow** produces a partial codebase, the corresponding unit tests, and the necessary code modifications, resulting in fully verifiable TDD tasks. With this approach, we generated 16,061 training instances and 2,020 test instances from real-world GitHub projects, creating the **SWE-Flow-Eval** benchmark. Our experiments show that fine-tuning open model on this dataset significantly improves performance in TDD-based coding. To facilitate further research, we release all code, datasets, models, and Docker images at [Github](https://github.com/Hambaobao/SWE-Flow).

arxiv情報

著者 Lei Zhang,Jiaxi Yang,Min Yang,Jian Yang,Mouxiang Chen,Jiajun Zhang,Zeyu Cui,Binyuan Hui,Junyang Lin
発行日 2025-06-10 17:23:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner はコメントを受け付けていません

UD-KSL Treebank v1.3: A semi-automated framework for aligning XPOS-extracted units with UPOS tags

要約

本研究では、XPOSシーケンスから形態系構造を識別し、それらの構造を対応するUPOカテゴリに合わせた半自動化されたフレームワークを導入することにより、第2言語(L2)韓国の普遍的な依存関係に関する最近の研究を拡張しています。
また、論争的なエッセイから2,998件の新しい文章を注釈することにより、既存のL2-Koreanコーパスを拡大します。
Xpos-uposアラインメントの影響を評価するために、2つのNLPツールキットを使用して、これらのアライメントの有無にかかわらず、データセットのL2-KOREAN MOLPHOSYNTACTIC分析モデルを微調整します。
我々の結果は、アラインドされたデータセットが注釈層全体の一貫性を改善するだけでなく、特に限られた注釈付きデータの場合に、形態系タグ付けと依存関係の精度を向上させることを示しています。

要約(オリジナル)

The present study extends recent work on Universal Dependencies annotations for second-language (L2) Korean by introducing a semi-automated framework that identifies morphosyntactic constructions from XPOS sequences and aligns those constructions with corresponding UPOS categories. We also broaden the existing L2-Korean corpus by annotating 2,998 new sentences from argumentative essays. To evaluate the impact of XPOS-UPOS alignments, we fine-tune L2-Korean morphosyntactic analysis models on datasets both with and without these alignments, using two NLP toolkits. Our results indicate that the aligned dataset not only improves consistency across annotation layers but also enhances morphosyntactic tagging and dependency-parsing accuracy, particularly in cases of limited annotated data.

arxiv情報

著者 Hakyung Sung,Gyu-Ho Shin,Chanyoung Lee,You Kyung Sung,Boo Kyung Jung
発行日 2025-06-10 17:37:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | UD-KSL Treebank v1.3: A semi-automated framework for aligning XPOS-extracted units with UPOS tags はコメントを受け付けていません

Learning to Reason Across Parallel Samples for LLM Reasoning

要約

テスト時間計算のスケーリングは、大規模な言語モデル(LLM)にかなりのパフォーマンスの向上をもたらします。
複数の回答をサンプリングし、回答をヒューリスティックに集約することで(たとえば、多数票の投票または検証剤を使用して回答をランク付けすることで)、数学ドメインで一貫したパフォーマンスの向上を達成できます。
この論文では、このような複数のサンプルセットを活用する新しい方法を提案します。
サンプルセットアグリゲーター(SSA)と呼ばれるコンパクトLLMをトレーニングします。これは、複数のサンプルの連結シーケンスを取り、最終回答を出力し、補強学習で回答の精度のために最適化します。
複数の推論データセットでの実験は、SSAが報酬モデルベースの再ランクなどの他のテスト時間スケーリング方法を上回ることを示しています。
また、私たちのアプローチは、サンプルセットサイズ、ベースモデルファミリとスケール、およびタスク全体にわたる有望な一般化能力を示しています。
LLMSを分離して回答とLLMを生成してサンプリングされた回答を分析および集約することにより、プレミアブラックボックスモデルの出力と簡単かつ効率的に連携できます。

要約(オリジナル)

Scaling test-time compute brings substantial performance gains for large language models (LLMs). By sampling multiple answers and heuristically aggregate their answers (e.g., either through majority voting or using verifiers to rank the answers), one can achieve consistent performance gains in math domains. In this paper, we propose a new way to leverage such multiple sample set. We train a compact LLM, called Sample Set Aggregator (SSA), that takes a concatenated sequence of multiple samples and output the final answer, optimizing it for the answer accuracy with reinforcement learning. Experiments on multiple reasoning datasets show that SSA outperforms other test-time scaling methods such as reward model-based re-ranking. Our approach also shows a promising generalization ability, across sample set sizes, base model families and scales, and tasks. By separating LLMs to generate answers and LLMs to analyze and aggregate sampled answers, our approach can work with the outputs from premier black box models easily and efficiently.

arxiv情報

著者 Jianing Qi,Xi Ye,Hao Tang,Zhigang Zhu,Eunsol Choi
発行日 2025-06-10 17:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Learning to Reason Across Parallel Samples for LLM Reasoning はコメントを受け付けていません