On Learning Verifiers for Chain-of-Thought Reasoning

要約

考え方の推論は、複雑な数学的および論理的な問題を解決するための強力なアプローチとして浮上しています。
ただし、しばしば、誤ったまたは根拠のない推論を介して軌道を軌道に乗せることができます。
正式な数学的推論は、正式な検証剤で確認できるが、この問題に対処するための1つのアプローチです。
ただし、現在、LLMは複雑な問題を正式な方法で解決するのに十分ではなく、非公式の問題声明を正式にすることでさえ、困難な場合があります。
この事実に動機付けられて、この作業では、自然言語の考え方の推論のための信頼できる検証因子を学ぶ問題を検討します。
つまり、自然言語での問題の声明と段階的な解決策が与えられると、検証剤の目的は、ソリューションの推論ステップがすべて有効である場合、[はい]出力です。
この作業では、この問題を研究するための正式なPACラーニングフレームワークを提供します。
このフレームワークでは、さまざまなレベルの強度で、いくつかの自然検証目標を提案して分析します。
これらの目標を満たす学習検証者のためのサンプルの複雑さの上限と、追加の仮定なしで他の自然検証目標を学習するための低バウンドおよび不可能性の結果を提供します。

要約(オリジナル)

Chain-of-Thought reasoning has emerged as a powerful approach for solving complex mathematical and logical problems. However, it can often veer off track through incorrect or unsubstantiated inferences. Formal mathematical reasoning, which can be checked with a formal verifier, is one approach to addressing this issue. However, currently LLMs are simply not good enough to solve complex problems in a formal way, and even just formalizing an informal problem statement can be challenging. Motivated by this fact, in this work we consider the problem of learning reliable verifiers for natural language Chain-of-Thought reasoning. That is, given a problem statement and step-by-step solution in natural language, the aim of the verifier is to output [Yes] if the reasoning steps in the solution are all valid, and [No] otherwise. In this work we give a formal PAC-learning framework for studying this problem. We propose and analyze several natural verification goals, at different levels of strength, in this framework. We provide sample complexity upper-bounds for learning verifiers satisfying these goals, as well as lower-bound and impossibility results for learning other natural verification objectives without additional assumptions.

arxiv情報

著者 Maria-Florina Balcan,Avrim Blum,Zhiyuan Li,Dravyansh Sharma
発行日 2025-05-28 17:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | On Learning Verifiers for Chain-of-Thought Reasoning はコメントを受け付けていません

AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy

要約

大規模な言語モデル(LLM)は、文献を統合し、研究の質問に答え、研究のアイデアを生成し、計算実験を実施する能力など、科学研究のアプリケーションについて調査されています。
最終的に、私たちの目標は、これらが科学者が新しい科学的洞察を引き出すのを助けることです。
科学の多くの分野では、そのような洞察はしばしばデータを処理および視覚化してそのパターンを理解することから生じます。
ただし、LLMを介した科学的ワークフローが正しい科学的洞察を伝える出力を生成するかどうかを評価することは、評価に挑戦し、過去の研究では対処されていません。
天文学ドメインでの科学的コンピューティングと視覚化の両方の最初のベンチマークであるAstrovisbenchを紹介します。
Astrovisbenchは、(1)データを処理および分析するための天文学固有のワークフローを作成し、(2)複雑なプロットを介してこれらのワークフローの結果を視覚化する両方の言語モデルの能力を判断します。
視覚化の評価では、5人の専門的な天文学者による注釈に対して検証されている新しいLLM-A-A-A-Judgeワークフローを使用しています。
Astrovisbenchを使用して、最先端の言語モデルの評価を提示し、有用なアシスタントとして天文学研究に従事する能力に大きなギャップを示します。
この評価は、物理学から生物学まで幅広いドメインの中心である視覚化ベースのワークフローの開発のための道を提供するAI科学者に強力なエンドツーエンドの評価を提供します。

要約(オリジナル)

Large Language Models (LLMs) are being explored for applications in scientific research, including their capabilities to synthesize literature, answer research questions, generate research ideas, and even conduct computational experiments. Ultimately, our goal is for these to help scientists derive novel scientific insights. In many areas of science, such insights often arise from processing and visualizing data to understand its patterns. However, evaluating whether an LLM-mediated scientific workflow produces outputs conveying the correct scientific insights is challenging to evaluate and has not been addressed in past work. We introduce AstroVisBench, the first benchmark for both scientific computing and visualization in the astronomy domain. AstroVisBench judges a language model’s ability to both (1) create astronomy-specific workflows to process and analyze data and (2) visualize the results of these workflows through complex plots. Our evaluation of visualizations uses a novel LLM-as-a-judge workflow, which is validated against annotation by five professional astronomers. Using AstroVisBench we present an evaluation of state-of-the-art language models, showing a significant gap in their ability to engage in astronomy research as useful assistants. This evaluation provides a strong end-to-end evaluation for AI scientists that offers a path forward for the development of visualization-based workflows, which are central to a broad range of domains from physics to biology.

arxiv情報

著者 Sebastian Antony Joseph,Syed Murtaza Husain,Stella S. R. Offner,Stéphanie Juneau,Paul Torrey,Adam S. Bolton,Juan P. Farias,Niall Gaffney,Greg Durrett,Junyi Jessy Li
発行日 2025-05-28 14:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, cs.CL, cs.LG | AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy はコメントを受け付けていません

RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning

要約

堅牢な評価は、信頼できる検索の高等世代(RAG)システムを展開するために重要です。
ただし、現在のLLMベースの評価フレームワークは、複雑なマルチステージプロンプトを備えたリソース集約型モデルを直接促すことに、モデルの推論機能を十分に活用し、大幅な計算コストを導入することに直接依存しています。
このホワイトペーパーでは、ルール誘導推論タスクとして忠実さと正確性評価を策定する新しいエンドツーエンドのフレームワークであるRag-Zeval(Rag-Zero Evaluator)を紹介します。
私たちのアプローチは、強化学習を備えた評価者を訓練し、コンパクトモデルを促進し、ワンパスで詳細な説明を含む包括的および健全な評価を生成します。
絶対スコアではなく優先判断を使用して、ランキングベースの結果報酬メカニズムを導入して、正確なポイントワイズ報酬信号を取得するという課題に対処します。
この目的のために、人間の注釈がゼロで品質管理された応答を生成することにより、ランキング参照を合成します。
実験は、Rag-Zevalの優れたパフォーマンスを示しており、人間の判断との最も強い相関関係を達成し、LLMSに10〜100倍のパラメーターで依存しているベースラインよりも優れています。
また、私たちのアプローチは、応答評価において優れた解釈可能性を示しています。

要約(オリジナル)

Robust evaluation is critical for deploying trustworthy retrieval-augmented generation (RAG) systems. However, current LLM-based evaluation frameworks predominantly rely on directly prompting resource-intensive models with complex multi-stage prompts, underutilizing models’ reasoning capabilities and introducing significant computational cost. In this paper, we present RAG-Zeval (RAG-Zero Evaluator), a novel end-to-end framework that formulates faithfulness and correctness evaluation as a rule-guided reasoning task. Our approach trains evaluators with reinforcement learning, facilitating compact models to generate comprehensive and sound assessments with detailed explanation in one-pass. We introduce a ranking-based outcome reward mechanism, using preference judgments rather than absolute scores, to address the challenge of obtaining precise pointwise reward signals. To this end, we synthesize the ranking references by generating quality-controlled responses with zero human annotation. Experiments demonstrate RAG-Zeval’s superior performance, achieving the strongest correlation with human judgments and outperforming baselines that rely on LLMs with 10-100 times more parameters. Our approach also exhibits superior interpretability in response evaluation.

arxiv情報

著者 Kun Li,Yunxiang Li,Tianhua Zhang,Hongyin Luo,Xixin Wu,James Glass,Helen Meng
発行日 2025-05-28 14:55:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning はコメントを受け付けていません

Gender-Neutral Large Language Models for Medical Applications: Reducing Bias in PubMed Abstracts

要約

このペーパーでは、性別の職業代名詞を中和することにより医学文献で使用される大規模な言語モデル(LLM)の性別バイアスを緩和するためのパイプラインを紹介します。
1965年から1980年の379,000のPubMed要約のデータセットが処理され、職業に関連する代名詞を特定して変更しました。
Bertベースのモデル、「洗練されたトレーニングによる現代の職業バイアス除去」または「Mobert」を開発し、これらの中和された要約で訓練され、そのパフォーマンスを元のデータセットで訓練した「1965bert」と比較しました。
Mobertは70%の包括的代替レートを達成し、1965bertは4%しか達しませんでした。
モバートのさらなる分析により、代名詞置換精度は、トレーニングデータの職業用語の頻度と相関していることが明らかになりました。
データセットを拡張し、パイプラインを改良してパフォーマンスを改善し、医療用途でより公平な言語モデリングを確保することを提案します。

要約(オリジナル)

This paper presents a pipeline for mitigating gender bias in large language models (LLMs) used in medical literature by neutralizing gendered occupational pronouns. A dataset of 379,000 PubMed abstracts from 1965-1980 was processed to identify and modify pronouns tied to professions. We developed a BERT-based model, ‘Modern Occupational Bias Elimination with Refined Training,’ or ‘MOBERT,’ trained on these neutralized abstracts, and compared its performance with ‘1965BERT,’ trained on the original dataset. MOBERT achieved a 70% inclusive replacement rate, while 1965BERT reached only 4%. A further analysis of MOBERT revealed that pronoun replacement accuracy correlated with the frequency of occupational terms in the training data. We propose expanding the dataset and refining the pipeline to improve performance and ensure more equitable language modeling in medical applications.

arxiv情報

著者 Elizabeth Schaefer,Kirk Roberts
発行日 2025-05-28 15:06:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Gender-Neutral Large Language Models for Medical Applications: Reducing Bias in PubMed Abstracts はコメントを受け付けていません

Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO

要約

トレーニング後の段階でのマルチモーダル大手言語モデル(MLLMS)の改善は、通常、監視された微調整(SFT)または強化学習(RL)に依存しています。
ただし、これらの監視された方法には、高価で手動で注釈付きのマルチモーダルデータが必要です。最終的には持続不可能なリソースです。
最近の努力により、監督されていない訓練後の努力が調査されていますが、それらの方法は複雑で反復するのが困難です。
この作業では、外部の監督なしで継続的な自己改善を可能にするために、安定したスケーラブルなオンラインRLアルゴリズムであるGRPOの使用を最初に調査しました。
ML-UPTは、MLLMの監視されていない訓練後のシンプルでありながら効果的なフレームワークであると提案します。
MM-UPはGRPOに基づいて構築され、従来の報酬シグナルを複数のサンプリングされた応答に対する過半数の投票に基づく自己報酬メカニズムに置き換えます。
私たちの実験は、MM-UPTがQWEN2.5-VL-7Bの推論能力を大幅に改善することを示しています(たとえば、66.3%$ \ rightArrow $ 72.9%Mathvistaの72.9%、62.9%$ \ RightArrow $ 68.7%We-Math)。
MM-UPTは、以前の監視されていないベースラインよりも優れており、監視されたGRPOの結果にさえ近づきます。
さらに、MLLM自体によってのみ生成される合成質問を組み込むと、パフォーマンスも向上し、スケーラブルな自己改善のための有望なアプローチを強調することができることを示しています。
全体として、MM-UPは、外部監督がない場合にMLLMの継続的で自律的な強化のための新しいパラダイムを提供します。
私たちのコードは、https://github.com/waltonfuture/mm-uptで入手できます。

要約(オリジナル)

Improving Multi-modal Large Language Models (MLLMs) in the post-training stage typically relies on supervised fine-tuning (SFT) or reinforcement learning (RL). However, these supervised methods require expensive and manually annotated multi-modal data–an ultimately unsustainable resource. While recent efforts have explored unsupervised post-training, their methods are complex and difficult to iterate. In this work, we are the first to investigate the use of GRPO, a stable and scalable online RL algorithm, for enabling continual self-improvement without any external supervision. We propose MM-UPT, a simple yet effective framework for unsupervised post-training of MLLMs. MM-UPT builds upon GRPO, replacing traditional reward signals with a self-rewarding mechanism based on majority voting over multiple sampled responses. Our experiments demonstrate that MM-UPT significantly improves the reasoning ability of Qwen2.5-VL-7B (e.g., 66.3 %$\rightarrow$72.9 % on MathVista, 62.9 %$\rightarrow$68.7 % on We-Math), using standard dataset without ground truth labels. MM-UPT also outperforms prior unsupervised baselines and even approaches the results of supervised GRPO. Furthermore, we show that incorporating synthetic questions, generated solely by MLLM itself, can boost performance as well, highlighting a promising approach for scalable self-improvement. Overall, MM-UPT offers a new paradigm for continual, autonomous enhancement of MLLMs in the absence of external supervision. Our code is available at https://github.com/waltonfuture/MM-UPT.

arxiv情報

著者 Lai Wei,Yuting Li,Chen Wang,Yue Wang,Linghe Kong,Weiran Huang,Lichao Sun
発行日 2025-05-28 15:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO はコメントを受け付けていません

ConKE: Conceptualization-Augmented Knowledge Editing in Large Language Models for Commonsense Reasoning

要約

知識編集(KE)は、大規模な言語モデル(LLM)内部表現とパラメーターを調整して、モデル全体を再トレーニングする計算費用を負担することなく、不正確さを修正し、出力の一貫性を改善することを目指しています。
ただし、既存のリソースでの限られた知識カバレッジ、大量の常識的な知識のためにラベルに注釈を付けることの無効性、現在の編集方法の厳格な知識形式など、常識的な知識の編集は依然として困難に直面しています。
このホワイトペーパーでは、ConceptEditを提示することにより、これらの課題に対処します。これは、ConcountEditをLLMSのKEパイプラインに統合するフレームワークを提示して、共同推論能力を強化します。
ConceptEditは、別の検証剤LLMを使用してLLM内の信じられない常識的知識を動的に診断し、より強力な一般化可能性のために概念化で編集されるソース知識を拡張します。
実験結果は、ConceptEditでLLMが強化されたことは、他のベースラインと比較して妥当性が向上し、複数の質問に依存するベンチマークにわたってより強力なパフォーマンスを達成することで、改善された知識を成功裏に生成することを示しています。
データ、コード、モデルは、https://github.com/hkust-knowcomp/conkeで公開されています。

要約(オリジナル)

Knowledge Editing (KE) aims to adjust a Large Language Model’s (LLM) internal representations and parameters to correct inaccuracies and improve output consistency without incurring the computational expense of re-training the entire model. However, editing commonsense knowledge still faces difficulties, including limited knowledge coverage in existing resources, the infeasibility of annotating labels for an overabundance of commonsense knowledge, and the strict knowledge formats of current editing methods. In this paper, we address these challenges by presenting ConceptEdit, a framework that integrates conceptualization and instantiation into the KE pipeline for LLMs to enhance their commonsense reasoning capabilities. ConceptEdit dynamically diagnoses implausible commonsense knowledge within an LLM using another verifier LLM and augments the source knowledge to be edited with conceptualization for stronger generalizability. Experimental results demonstrate that LLMs enhanced with ConceptEdit successfully generate commonsense knowledge with improved plausibility compared to other baselines and achieve stronger performance across multiple question answering benchmarks. Our data, code, and models are publicly available at https://github.com/HKUST-KnowComp/ConKE.

arxiv情報

著者 Liyu Zhang,Weiqi Wang,Tianqing Fang,Yangqiu Song
発行日 2025-05-28 15:14:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ConKE: Conceptualization-Augmented Knowledge Editing in Large Language Models for Commonsense Reasoning はコメントを受け付けていません

FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation

要約

反事実的な例は、モデルを改善するための貴重なデータとして、およびモデルの行動を理解するための説明可能な人工知能(XAI)として、自然言語処理(NLP)で広く使用されています。
多くのタスクでの印象的なパフォーマンスにもかかわらず、大規模な言語モデル(LLM)にとっても、反事実的な例の自動生成は依然として困難な作業です。
この論文では、最初にZerocfを紹介します。これは、ゼロショット設定で反事実的な例を生成するために、特徴属性メソッドから派生した重要な単語を活用するための忠実なアプローチです。
第二に、新しいフレームワークであるFITCFを提示します。これは、ラベルフリップ検証によって前述の反事実をさらに検証し、2つの最先端のベースラインを上回る少数のショットプロンプトのデモとしてそれらを挿入します。
アブレーション研究を通じて、フリップレート、困惑、および類似性測定で評価されるように、反事実の品質を改善する上で、FITCFの各コアコンポーネントの重要性を特定します。
さらに、FITCFのバックボーン属性法としての石灰と統合勾配の有効性を示し、デモの数がパフォーマンスに最大の影響を与えることを発見します。
最後に、機能の帰属スコアの忠実さと生成された反事実の質との強い相関関係を明らかにします。これは、この方向の将来の研究の重要な発見として役立つことを願っています。

要約(オリジナル)

Counterfactual examples are widely used in natural language processing (NLP) as valuable data to improve models, and in explainable artificial intelligence (XAI) to understand model behavior. The automated generation of counterfactual examples remains a challenging task even for large language models (LLMs), despite their impressive performance on many tasks. In this paper, we first introduce ZeroCF, a faithful approach for leveraging important words derived from feature attribution methods to generate counterfactual examples in a zero-shot setting. Second, we present a new framework, FitCF, which further verifies aforementioned counterfactuals by label flip verification and then inserts them as demonstrations for few-shot prompting, outperforming two state-of-the-art baselines. Through ablation studies, we identify the importance of each of FitCF’s core components in improving the quality of counterfactuals, as assessed through flip rate, perplexity, and similarity measures. Furthermore, we show the effectiveness of LIME and Integrated Gradients as backbone attribution methods for FitCF and find that the number of demonstrations has the largest effect on performance. Finally, we reveal a strong correlation between the faithfulness of feature attribution scores and the quality of generated counterfactuals, which we hope will serve as an important finding for future research in this direction.

arxiv情報

著者 Qianli Wang,Nils Feldhus,Simon Ostermann,Luis Felipe Villa-Arenas,Sebastian Möller,Vera Schmitt
発行日 2025-05-28 15:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation はコメントを受け付けていません

BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages

要約

世界中の人々は、感情を表現するために微妙で複雑な方法で言語を使用しています。
感情認識 – いくつかのNLPタスクの傘の用語は、NLP以降のさまざまなアプリケーションを影響しますが、この分野でのほとんどの作業は高リソース言語に焦点を当てています。
これにより、特に高品質の注釈付きデータセットが欠けていることが多いリソースが不足している言語については、研究努力と提案されたソリューションに大きな格差が生じています。
このホワイトペーパーでは、28の異なる言語といくつかのドメインにわたって、多面的で感情に注目したデータセットのコレクションであるBrightを紹介します。
明るいことは、主にアフリカ、アジア、東ヨーロッパ、ラテンアメリカの低リソース言語をカバーしており、流fluentスピーカーによってラベル付けされています。
データ収集と注釈プロセスに関連する課題を強調し、感情強度の認識と同様に、単一言語および横断的多面的な感情の識別の実験結果を報告します。
LLMの使用の有無にかかわらず、言語とテキストドメイン間のパフォーマンスの変動性を分析し、より明るいデータセットがテキストベースの感情認識のギャップに対処するための意味のあるステップを表していることを示します。

要約(オリジナル)

People worldwide use language in subtle and complex ways to express emotions. Although emotion recognition–an umbrella term for several NLP tasks–impacts various applications within NLP and beyond, most work in this area has focused on high-resource languages. This has led to significant disparities in research efforts and proposed solutions, particularly for under-resourced languages, which often lack high-quality annotated datasets. In this paper, we present BRIGHTER–a collection of multilabeled, emotion-annotated datasets in 28 different languages and across several domains. BRIGHTER primarily covers low-resource languages from Africa, Asia, Eastern Europe, and Latin America, with instances labeled by fluent speakers. We highlight the challenges related to the data collection and annotation processes, and then report experimental results for monolingual and crosslingual multi-label emotion identification, as well as emotion intensity recognition. We analyse the variability in performance across languages and text domains, both with and without the use of LLMs, and show that the BRIGHTER datasets represent a meaningful step towards addressing the gap in text-based emotion recognition.

arxiv情報

著者 Shamsuddeen Hassan Muhammad,Nedjma Ousidhoum,Idris Abdulmumin,Jan Philip Wahle,Terry Ruas,Meriem Beloucif,Christine de Kock,Nirmal Surange,Daniela Teodorescu,Ibrahim Said Ahmad,David Ifeoluwa Adelani,Alham Fikri Aji,Felermino D. M. A. Ali,Ilseyar Alimova,Vladimir Araujo,Nikolay Babakov,Naomi Baes,Ana-Maria Bucur,Andiswa Bukula,Guanqun Cao,Rodrigo Tufino Cardenas,Rendi Chevi,Chiamaka Ijeoma Chukwuneke,Alexandra Ciobotaru,Daryna Dementieva,Murja Sani Gadanya,Robert Geislinger,Bela Gipp,Oumaima Hourrane,Oana Ignat,Falalu Ibrahim Lawan,Rooweither Mabuya,Rahmad Mahendra,Vukosi Marivate,Alexander Panchenko,Andrew Piper,Charles Henrique Porto Ferreira,Vitaly Protasov,Samuel Rutunda,Manish Shrivastava,Aura Cristina Udrea,Lilian Diana Awuor Wanzare,Sophie Wu,Florian Valentin Wunderlich,Hanif Muhammad Zhafran,Tianhui Zhang,Yi Zhou,Saif M. Mohammad
発行日 2025-05-28 15:24:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages はコメントを受け付けていません

Effective Context in Neural Speech Models

要約

現代のニューラル音声モデルは、より長いコンテキストを持つことから恩恵を受けており、モデルが使用できる最大コンテキストを増やすために多くのアプローチが提案されています。
ただし、これらのモデルが実際に使用するコンテキスト、つまり効果的なコンテキストを測定しようとした人はほとんどいません。
ここでは、効果的なコンテキストを測定するための2つのアプローチを提案し、それらを使用して異なる音声変圧器を分析します。
監視されたモデルの場合、効果的なコンテキストは、タスクの性質とよく相関しており、基本的な周波数追跡、電話分類、および効果的なコンテキストの量を増やす必要がある単語分類が必要であることがわかります。
自己監視モデルの場合、効果的なコンテキストは主に初期層で増加し、監視された電話モデルと同様に比較的短いままであることがわかります。
これらのモデルが予測中に長いコンテキストを使用しないことを考えると、アーキテクチャを変更せずに、さらに微調整することなく、ヒューバートをストリーミングモードで実行できることを示します。

要約(オリジナル)

Modern neural speech models benefit from having longer context, and many approaches have been proposed to increase the maximum context a model can use. However, few have attempted to measure how much context these models actually use, i.e., the effective context. Here, we propose two approaches to measuring the effective context, and use them to analyze different speech Transformers. For supervised models, we find that the effective context correlates well with the nature of the task, with fundamental frequency tracking, phone classification, and word classification requiring increasing amounts of effective context. For self-supervised models, we find that effective context increases mainly in the early layers, and remains relatively short — similar to the supervised phone model. Given that these models do not use a long context during prediction, we show that HuBERT can be run in streaming mode without modification to the architecture and without further fine-tuning.

arxiv情報

著者 Yen Meng,Sharon Goldwater,Hao Tang
発行日 2025-05-28 15:36:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Effective Context in Neural Speech Models はコメントを受け付けていません

AdvAgent: Controllable Blackbox Red-teaming on Web Agents

要約

基礎モデルベースのエージェントは、複雑なタスクの自動化にますます使用され、効率と生産性を向上させています。
ただし、デリケートなリソースへのアクセスと自律的な意思決定は、攻撃を成功させると深刻な結果につながる可能性があるという重大なセキュリティリスクももたらします。
これらの脆弱性を体系的に明らかにするために、Webエージェントを攻撃するためのブラックボックスの赤い測定フレームワークである将来を提案します。
既存のアプローチとは異なり、Advagentは強化学習ベースのパイプラインを採用して、ブラックボックスエージェントからのフィードバックを使用して敵対的なプロンプトを最適化する敵対的なプロンプターモデルを訓練します。
慎重な攻撃設計により、これらのプロンプトは、ステルス性と制御性を維持しながら、エージェントの弱点を効果的に活用します。
広範な評価は、将来が多様なWebタスク全体で最先端のGPT-4ベースのWebエージェントに対して高い成功率を達成することを示しています。
さらに、既存の迅速な防御は限られた保護のみを提供し、エージェントが私たちのフレームワークに対して脆弱になることを発見しました。
これらの調査結果は、現在のWebエージェントの重要な脆弱性を強調し、より強力な防御メカニズムの緊急の必要性を強調しています。
https://ai-secure.github.io/advagent/でコードをリリースします。

要約(オリジナル)

Foundation model-based agents are increasingly used to automate complex tasks, enhancing efficiency and productivity. However, their access to sensitive resources and autonomous decision-making also introduce significant security risks, where successful attacks could lead to severe consequences. To systematically uncover these vulnerabilities, we propose AdvAgent, a black-box red-teaming framework for attacking web agents. Unlike existing approaches, AdvAgent employs a reinforcement learning-based pipeline to train an adversarial prompter model that optimizes adversarial prompts using feedback from the black-box agent. With careful attack design, these prompts effectively exploit agent weaknesses while maintaining stealthiness and controllability. Extensive evaluations demonstrate that AdvAgent achieves high success rates against state-of-the-art GPT-4-based web agents across diverse web tasks. Furthermore, we find that existing prompt-based defenses provide only limited protection, leaving agents vulnerable to our framework. These findings highlight critical vulnerabilities in current web agents and emphasize the urgent need for stronger defense mechanisms. We release code at https://ai-secure.github.io/AdvAgent/.

arxiv情報

著者 Chejian Xu,Mintong Kang,Jiawei Zhang,Zeyi Liao,Lingbo Mo,Mengqi Yuan,Huan Sun,Bo Li
発行日 2025-05-28 15:38:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | AdvAgent: Controllable Blackbox Red-teaming on Web Agents はコメントを受け付けていません