Prompt-Based Cost-Effective Evaluation and Operation of ChatGPT as a Computer Programming Teaching Assistant

要約

1:1の学生と教師の比率を達成するという夢は、大規模な言語モデル(LLM)の出現により、これまで以上に近いです。
教育分野でのこれらのモデルの潜在的な適用の1つは、大学の入門プログラミングコースの学生にフィードバックを提供することです。そのため、基本的な実装の問題を解決するのに苦労している学生は、24時間年中無休で利用可能なLLMから助けを求めることができます。
この記事では、このようなアプリケーションに関連する3つの側面の研究に焦点を当てています。
まず、学生にフィードバックを提供する2つの有名なモデル、GPT-3.5TとGPT-4Tのパフォーマンスが評価されます。
経験的結果は、GPT-4TがGPT-3.5Tよりもはるかに優れていることを示しましたが、実際のシナリオではまだ使用できないことがわかりました。
これは、潜在的なユーザーが常に検出できるとは限らないという誤った情報を生成する可能性があるためです。
第二に、この記事では、評価プロセスの重要な部分を自動化できるコンテキスト学習手法を使用して、慎重に設計されたプロンプトを提案し、間違った情報を含むフィードバックの割合、時間と労力を節約するための下限を提供します。
これは、結果のフィードバックが、要求されたタスクの解決におけるLLMのパフォーマンスに関する診断情報を組み込んだプログラムで分析可能な構造を持っているため、可能でした。
第三に、この記事では、提案されたプロンプト技術に根ざしたLLMSに基づいた実用的な学習ツールを実装するための可能な戦略も示唆しています。
この戦略は、教育的な観点からさまざまな興味深い可能性を開きます。

要約(オリジナル)

The dream of achieving a student-teacher ratio of 1:1 is closer than ever thanks to the emergence of large language models (LLMs). One potential application of these models in the educational field would be to provide feedback to students in university introductory programming courses, so that a student struggling to solve a basic implementation problem could seek help from an LLM available 24/7. This article focuses on studying three aspects related to such an application. First, the performance of two well-known models, GPT-3.5T and GPT-4T, in providing feedback to students is evaluated. The empirical results showed that GPT-4T performs much better than GPT-3.5T, however, it is not yet ready for use in a real-world scenario. This is due to the possibility of generating incorrect information that potential users may not always be able to detect. Second, the article proposes a carefully designed prompt using in-context learning techniques that allows automating important parts of the evaluation process, as well as providing a lower bound for the fraction of feedbacks containing incorrect information, saving time and effort. This was possible because the resulting feedback has a programmatically analyzable structure that incorporates diagnostic information about the LLM’s performance in solving the requested task. Third, the article also suggests a possible strategy for implementing a practical learning tool based on LLMs, which is rooted on the proposed prompting techniques. This strategy opens up a whole range of interesting possibilities from a pedagogical perspective.

arxiv情報

著者 Marc Ballestero-Ribó,Daniel Ortiz-Martínez
発行日 2025-04-18 10:35:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Prompt-Based Cost-Effective Evaluation and Operation of ChatGPT as a Computer Programming Teaching Assistant はコメントを受け付けていません

Long-context Non-factoid Question Answering in Indic Languages

要約

特定のコンテキストから回答を抽出することを含む質問回答(QA)タスクは、コンテキストが短いときに最新の大手言語モデル(LLM)にとって比較的簡単です。
ただし、長いコンテキストは、自己触媒メカニズムの二次的な複雑さのために課題を引き起こします。
この課題は、インド言語で複合されており、多くの場合、リソースが少ないことがよくあります。
この研究では、QAパフォーマンスを改善するために、オープン情報抽出(OIE)、コアレファレンス解像度、回答段落選択(APS)、およびそれらの組み合わせなど、コンテキストの短縮技術を調査します。
未解決の(長い)コンテキストのベースラインと比較して、4つのインド言語(ヒンディー語、タミル語、テルグ語、およびウルドゥー語)での実験は、コンテキストを縮小する技術がセマンティックスコアで4 \%の平均改善をもたらすことを示しています。
さらに、微調整により、セマンティックとトークンレベルのスコアの両方で平均2 \%の増加を達成します。
さらに、コンテキストの短縮により、計算オーバーヘッドが減少します。
LimeやShapなどの説明可能性の手法は、APSモデルが答えを含む段落を自信を持って識別すると、選択したテキスト内のほぼすべてのトークンが高い関連スコアを受信することを明らかにしています。
ただし、この研究では、LLMベースのQAシステムの限界、特に推論や議論が必要な質問に対処する際の制限も強調されています。
さらに、OIEで生成されたトリプルを言葉遣いすることは、システムのパフォーマンスを向上させません。
これらの調査結果は、特に低リソース言語のLLMベースのQAシステムの効率と有効性を改善するためのコンテキストを縮小する技術の可能性を強調しています。
ソースコードとリソースは、https://github.com/ritwikmishra/indicgenqaで入手できます。

要約(オリジナル)

Question Answering (QA) tasks, which involve extracting answers from a given context, are relatively straightforward for modern Large Language Models (LLMs) when the context is short. However, long contexts pose challenges due to the quadratic complexity of the self-attention mechanism. This challenge is compounded in Indic languages, which are often low-resource. This study explores context-shortening techniques, including Open Information Extraction (OIE), coreference resolution, Answer Paragraph Selection (APS), and their combinations, to improve QA performance. Compared to the baseline of unshortened (long) contexts, our experiments on four Indic languages (Hindi, Tamil, Telugu, and Urdu) demonstrate that context-shortening techniques yield an average improvement of 4\% in semantic scores and 47\% in token-level scores when evaluated on three popular LLMs without fine-tuning. Furthermore, with fine-tuning, we achieve an average increase of 2\% in both semantic and token-level scores. Additionally, context-shortening reduces computational overhead. Explainability techniques like LIME and SHAP reveal that when the APS model confidently identifies the paragraph containing the answer, nearly all tokens within the selected text receive high relevance scores. However, the study also highlights the limitations of LLM-based QA systems in addressing non-factoid questions, particularly those requiring reasoning or debate. Moreover, verbalizing OIE-generated triples does not enhance system performance. These findings emphasize the potential of context-shortening techniques to improve the efficiency and effectiveness of LLM-based QA systems, especially for low-resource languages. The source code and resources are available at https://github.com/ritwikmishra/IndicGenQA.

arxiv情報

著者 Ritwik Mishra,Rajiv Ratn Shah,Ponnurangam Kumaraguru
発行日 2025-04-18 10:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Long-context Non-factoid Question Answering in Indic Languages はコメントを受け付けていません

Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models

要約

大規模な推論モデル(LRMS)の最近の進歩は、複数のタスクの推論能力を強化するために、テスト時間計算のスケーリングの有効性を実証しています。
ただし、LRMは通常、「考え直し」問題に悩まされます。この問題では、モデルは、限られたパフォーマンスの向上をもたらしながら、大幅に冗長な推論ステップを生成します。
既存の作業は、過剰な考えを緩和するための微調整に依存しています。これには、追加のデータ、型破りなトレーニングセットアップ、危険な安全性の不整合、および貧弱な一般化が必要です。
経験的分析を通じて、LRM行動の重要な特徴を明らかにします。これは、思考トークン($ \ texttt {} $と$ \ texttt {)} $の間に小さなモデルによって生成された外部コットを配置することで、モデルを効果的に操作してより少ない思考を生成できます。
これらの洞察に基づいて、LRMが不必要な中間ステップをバイパスし、計算コストを大幅に削減できるようにするために、シンプルでありながら効率的なパイプライン、Thoughnmaniを提案します。
思考マニの有用性と効率を検証するために、広範な実験を実施します。
たとえば、ライブベンチ/コードデータセットでQWQ-32Bに適用すると、Thoughtmaniは元のパフォーマンスを維持し、コットジェネレーターからのオーバーヘッドで出力トークンカウントを約30%減らします。
さらに、思考は平均10%の安全アライメントを強化することがわかります。
モデルベンダーは通常、さまざまなサイズのモデルを同時に提供するため、Thoughtmaniは、実際のアプリケーション向けに、より効率的でアクセス可能なLRMを構築するための効果的な方法を提供します。

要約(オリジナル)

Recent advancements in large reasoning models (LRMs) have demonstrated the effectiveness of scaling test-time computation to enhance reasoning capabilities in multiple tasks. However, LRMs typically suffer from ‘overthinking’ problems, where models generate significantly redundant reasoning steps while bringing limited performance gains. Existing work relies on fine-tuning to mitigate overthinking, which requires additional data, unconventional training setups, risky safety misalignment, and poor generalization. Through empirical analysis, we reveal an important characteristic of LRM behaviors that placing external CoTs generated by smaller models between the thinking token ($\texttt{}$ and $\texttt{)}$ can effectively manipulate the model to generate fewer thoughts. Building on these insights, we propose a simple yet efficient pipeline, ThoughtMani, to enable LRMs to bypass unnecessary intermediate steps and reduce computational costs significantly. We conduct extensive experiments to validate the utility and efficiency of ThoughtMani. For instance, when applied to QwQ-32B on the LiveBench/Code dataset, ThoughtMani keeps the original performance and reduces output token counts by approximately 30%, with little overhead from the CoT generator. Furthermore, we find that ThoughtMani enhances safety alignment by an average of 10%. Since model vendors typically serve models of different sizes simultaneously, ThoughtMani provides an effective way to construct more efficient and accessible LRMs for real-world applications.

arxiv情報

著者 Yule Liu,Jingyi Zheng,Zhen Sun,Zifan Peng,Wenhan Dong,Zeyang Sha,Shiwen Cui,Weiqiang Wang,Xinlei He
発行日 2025-04-18 11:07:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models はコメントを受け付けていません

Remedy: Learning Machine Translation Evaluation from Human Preferences with Reward Modeling

要約

MT評価の重要な課題は、人間の評価の固有のノイズと矛盾です。
回帰ベースのニューラルメトリックはこのノイズに苦労していますが、LLMSの促しはシステムレベルの評価で有望であるが、セグメントレベルではパフォーマンスが低いことを示しています。
この作業では、翻訳評価を報酬モデリングタスクとして再定式化する新しいMTメトリックフレームワークであるRemedyを提案します。
不完全な人間の評価を直接回帰する代わりに、Remedyはペアワイズ優先データを使用して相対翻訳の品質を学習し、より信頼性の高い評価をもたらします。
WMT22-24共有タスク(39の言語ペア、111 MTシステム)を横切る広範な実験では、Remedyはセグメントレベルとシステムレベルの両方の評価で最先端のパフォーマンスを達成します。
具体的には、Remedy-9Bは、Metricx-13B、Xcomet-Ensemble、Gemba-Gpt-4、Palm-540B、Finetuned Palm2など、より大きなWMT勝者と大規模な閉鎖LLMを上回ります。
さらなる分析により、Remedyは翻訳エラーの検出と低品質の翻訳の評価に優れた能力を提供することが示されています。

要約(オリジナル)

A key challenge in MT evaluation is the inherent noise and inconsistency of human ratings. Regression-based neural metrics struggle with this noise, while prompting LLMs shows promise at system-level evaluation but performs poorly at segment level. In this work, we propose ReMedy, a novel MT metric framework that reformulates translation evaluation as a reward modeling task. Instead of regressing on imperfect human ratings directly, ReMedy learns relative translation quality using pairwise preference data, resulting in a more reliable evaluation. In extensive experiments across WMT22-24 shared tasks (39 language pairs, 111 MT systems), ReMedy achieves state-of-the-art performance at both segment- and system-level evaluation. Specifically, ReMedy-9B surpasses larger WMT winners and massive closed LLMs such as MetricX-13B, XCOMET-Ensemble, GEMBA-GPT-4, PaLM-540B, and finetuned PaLM2. Further analyses demonstrate that ReMedy delivers superior capability in detecting translation errors and evaluating low-quality translations.

arxiv情報

著者 Shaomu Tan,Christof Monz
発行日 2025-04-18 11:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Remedy: Learning Machine Translation Evaluation from Human Preferences with Reward Modeling はコメントを受け付けていません

Simulating Before Planning: Constructing Intrinsic User World Model for User-Tailored Dialogue Policy Planning

要約

対話政策計画における最近の進歩は、戦略設計、軌跡の獲得、効率的なトレーニングパラダイムに焦点を当て、事前定義された目標を達成するためのシステムエージェントポリシーを最適化することを強調しています。
ただし、これらのアプローチは、多くの場合、ユーザー特性の重要な役割を見落としています。ユーザー特性は、会話の検索や推奨事項などの実際のシナリオに不可欠であり、個性、好み、目標などの個々のユーザー特性に適応する必要があります。
このギャップに対処するために、まず、タスク固有のユーザーペルソナを利用して包括的な調査を実施し、多様なユーザー行動の下で対話ポリシー計画を体系的に評価します。
さまざまなタスクのリアルなユーザープロファイルを活用することにより、私たちの調査は、既存のアプローチの大きな制限を明らかにし、ユーザーに合わせたダイアログポリシー計画の必要性を強調しています。
この基盤の上に構築して、ユーザーにテイラルしたダイアログポリシープランニング(UDP)フレームワークを紹介します。これには、ユーザーの特性とフィードバックをモデル化するための本質的なユーザーワールドモデルが組み込まれています。
UDPは3つの段階で動作します。(1)拡散モデルを使用してユーザープロファイルを動的に推測するユーザーペルソナ。
(2)ユーザーの反応を予測するためにブラウンブリッジにインスパイアされた予想者をレバレッジして、ユーザーフィードバックを予測します。
(3)ユーザーにテイラルしたポリシー計画、これらの洞察を統合して応答戦略を最適化します。
堅牢なパフォーマンスを確保するために、トレーニング中に挑戦的なユーザーペルソナを優先する積極的な学習アプローチをさらに提案します。
コラボレーションおよび非随意の設定を含むベンチマークでの包括的な実験は、ユーザー固有の対話戦略を学習する際のUDPの有効性を示しています。
結果は、プロトコルのユーティリティを検証し、UDPの堅牢性、適応性、およびユーザー中心のダイアログシステムを前進させる可能性を強調します。

要約(オリジナル)

Recent advancements in dialogue policy planning have emphasized optimizing system agent policies to achieve predefined goals, focusing on strategy design, trajectory acquisition, and efficient training paradigms. However, these approaches often overlook the critical role of user characteristics, which are essential in real-world scenarios like conversational search and recommendation, where interactions must adapt to individual user traits such as personality, preferences, and goals. To address this gap, we first conduct a comprehensive study utilizing task-specific user personas to systematically assess dialogue policy planning under diverse user behaviors. By leveraging realistic user profiles for different tasks, our study reveals significant limitations in existing approaches, highlighting the need for user-tailored dialogue policy planning. Building on this foundation, we present the User-Tailored Dialogue Policy Planning (UDP) framework, which incorporates an Intrinsic User World Model to model user traits and feedback. UDP operates in three stages: (1) User Persona Portraying, using a diffusion model to dynamically infer user profiles; (2) User Feedback Anticipating, leveraging a Brownian Bridge-inspired anticipator to predict user reactions; and (3) User-Tailored Policy Planning, integrating these insights to optimize response strategies. To ensure robust performance, we further propose an active learning approach that prioritizes challenging user personas during training. Comprehensive experiments on benchmarks, including collaborative and non-collaborative settings, demonstrate the effectiveness of UDP in learning user-specific dialogue strategies. Results validate the protocol’s utility and highlight UDP’s robustness, adaptability, and potential to advance user-centric dialogue systems.

arxiv情報

著者 Tao He,Lizi Liao,Ming Liu,Bing Qin
発行日 2025-04-18 11:48:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Simulating Before Planning: Constructing Intrinsic User World Model for User-Tailored Dialogue Policy Planning はコメントを受け付けていません

Word Embedding Techniques for Classification of Star Ratings

要約

テレコムサービスは、今日の社会の日常的なニーズの中核です。
多数のオンラインフォーラムとディスカッションプラットフォームが利用可能になると、テレコムプロバイダーは顧客の見解を探索して、顧客が直面する一般的な問題について学ぶことでサービスを改善できます。
自然言語処理(NLP)ツールを使用して、収集された無料テキストを処理できます。
このようなデータを操作する1つの方法は、ニューラルネットワークに基づいた多くの単語埋め込みモデルのいずれかを使用して、数値ベクトルとしてテキストを表すことです。
この調査では、通信顧客のレビューの新しいデータセットを使用して、異なる単語埋め込みアルゴリズムがテキスト分類プロセスにどのように影響するかを示す広範な調査を実行します。
Bert、Word2Vec、Doc2Vecなど、いくつかの最先端の単語埋め込み手法が考慮され、いくつかの分類アルゴリズムと組み合わされています。
機能エンジニアリングと次元削減の重要な問題に対処し、いくつかのPCAベースのアプローチが検討されています。
さらに、異なる単語の埋め込みで使用されるエネルギー消費が調査されます。
調査結果は、いくつかの単語埋め込みモデルが、精度、リコール、F1スコアの観点から一貫してより良いテキスト分類子につながる可能性があることを示しています。
特に、より挑戦的な分類タスクのために、BertとPCAを組み合わせて最高のパフォーマンスメトリックと際立っていました。
さらに、最初の主成分を使用して単語ベクトルを組み合わせるという提案されたPCAアプローチは、平均をとるという従来のアプローチに対するパフォーマンスの明確な利点を示しています。

要約(オリジナル)

Telecom services are at the core of today’s societies’ everyday needs. The availability of numerous online forums and discussion platforms enables telecom providers to improve their services by exploring the views of their customers to learn about common issues that the customers face. Natural Language Processing (NLP) tools can be used to process the free text collected. One way of working with such data is to represent text as numerical vectors using one of many word embedding models based on neural networks. This research uses a novel dataset of telecom customers’ reviews to perform an extensive study showing how different word embedding algorithms can affect the text classification process. Several state-of-the-art word embedding techniques are considered, including BERT, Word2Vec and Doc2Vec, coupled with several classification algorithms. The important issue of feature engineering and dimensionality reduction is addressed and several PCA-based approaches are explored. Moreover, the energy consumption used by the different word embeddings is investigated. The findings show that some word embedding models can lead to consistently better text classifiers in terms of precision, recall and F1-Score. In particular, for the more challenging classification tasks, BERT combined with PCA stood out with the highest performance metrics. Moreover, our proposed PCA approach of combining word vectors using the first principal component shows clear advantages in performance over the traditional approach of taking the average.

arxiv情報

著者 Hesham Abdelmotaleb,Craig McNeile,Malgorzata Wojtys
発行日 2025-04-18 12:26:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62P99, cs.CL, stat.AP | Word Embedding Techniques for Classification of Star Ratings はコメントを受け付けていません

Can Tool-augmented Large Language Models be Aware of Incomplete Conditions?

要約

大規模な言語モデル(LLMS)をツールと統合する最近の進歩により、モデルは実際の環境と対話することができました。
ただし、ユーザーが部分的な情報を提供する場合、または必要なツールが利用できない場合、これらのツールを介したLLMは不完全なシナリオに遭遇することがよくあります。
このようなシナリオを認識して管理することは、LLMSが信頼性を確保するために重要ですが、この探索は依然として理解されています。
この研究では、LLMが不完全な条件を特定できるかどうかを調べ、ツールの使用をいつ控えるかを適切に決定します。
この目的のために、2つのデータセットからインスタンスを操作することにより、必要なツールまたはツールの呼び出しに不可欠な情報を削除することにより、データセットに対処します。
私たちの実験は、LLMが特定のツールを利用するために必要な情報の欠如を特定し、適切なツールがないことを認識するのに苦労していることを示しています。
さまざまな環境でのモデルの動作をさらに分析し、そのパフォーマンスを人間と比較します。
私たちの研究は、人間とLLM間の相互作用中に一般的なシナリオに対処することにより、信頼できるLLMの前進に貢献できます。
コードとデータセットは公開されます。

要約(オリジナル)

Recent advancements in integrating large language models (LLMs) with tools have allowed the models to interact with real-world environments. However, these tool-augmented LLMs often encounter incomplete scenarios when users provide partial information or the necessary tools are unavailable. Recognizing and managing such scenarios is crucial for LLMs to ensure their reliability, but this exploration remains understudied. This study examines whether LLMs can identify incomplete conditions and appropriately determine when to refrain from using tools. To this end, we address a dataset by manipulating instances from two datasets by removing necessary tools or essential information for tool invocation. Our experiments show that LLMs often struggle to identify the absence of information required to utilize specific tools and recognize the absence of appropriate tools. We further analyze model behaviors in different environments and compare their performance against humans. Our research can contribute to advancing reliable LLMs by addressing common scenarios during interactions between humans and LLMs. Our code and dataset will be publicly available.

arxiv情報

著者 Seungbin Yang,ChaeHun Park,Taehee Kim,Jaegul Choo
発行日 2025-04-18 13:07:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can Tool-augmented Large Language Models be Aware of Incomplete Conditions? はコメントを受け付けていません

The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators

要約

大規模な言語モデル(LLM)が自然言語生成タスクの評価者としてますます使用されているため、公平な評価が不可欠であることを保証します。
ただし、LLM評価者は、多くの場合、冗長性や権威あるトーンを好むなどの偏った好みを表示します。
私たちの経験的分析は、これらのバイアスがペアワイズ評価で悪化していることを明らかにしています。ここでは、LLMSは2つの出力を直接比較し、表面的な属性を簡単に優先順位付けします。
対照的に、出力を独立して評価する点ごとの評価は、各出力が単独で判断されるため、そのようなバイアスの影響を受けにくい。
ペアワイズ評価の制限に対処するために、ペアワイズフレームワーク内に点ワイズの推論を統合する新しい評価方法であるPrepairを紹介します。
Prepairは、標準ベンチマーク(MTベンチ)のポイントワイズ評価を上回りながら、敵対的なベンチマーク(LLMBAR)でのパフォーマンスを改善し、偏った好みを効果的に緩和し、敵対的なベンチマーク(LLMBAR)を改善します。

要約(オリジナル)

As large language models (LLMs) are increasingly used as evaluators for natural language generation tasks, ensuring unbiased assessments is essential. However, LLM evaluators often display biased preferences, such as favoring verbosity and authoritative tones. Our empirical analysis reveals that these biases are exacerbated in pairwise evaluation, where LLMs directly compare two outputs and easily prioritize superficial attributes. In contrast, pointwise evaluation, which assesses outputs independently, is less susceptible to such bias because each output is judged in isolation. To address the limitations of the pairwise evaluation, we introduce a novel evaluation method, PRePair, which integrates pointwise reasoning within a pairwise framework. PRePair effectively alleviates biased preference, improving performance on the adversarial benchmark (LLMBar) while outperforming pointwise evaluation on the standard benchmark (MT-Bench).

arxiv情報

著者 Hawon Jeong,ChaeHun Park,Jimin Hong,Hojoon Lee,Jaegul Choo
発行日 2025-04-18 13:12:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators はコメントを受け付けていません

Learning to Attribute with Attention

要約

言語モデルによって生成された一連のトークンを考えると、このシーケンスを生成するためにモデルに影響を与える前のトークンを識別することをお勧めします。
このようなトークンの帰属を実行するのは高価です。
一般的なアプローチは、トークンに先行することを除去し、それらの効果を直接測定することです。
トークンの帰属のコストを削減するために、言語モデルが前のトークンをどのように使用するかについてのヒューリスティックとして注意の重みを再検討します。
モデルの動作を注意を払って属性する素朴なアプローチ(たとえば、トークンの影響を推定するために注意ヘッド全体の注意の重みを平均化する)は信頼できないことがわかっています。
忠実な属性を達成するために、さまざまな注意ヘッドの注意力を特徴として扱うことを提案します。
このようにして、属性の注意力を効果的に活用する方法を学ぶことができます(アブレーションからの信号を使用)。
結果として得られる方法、注意付きの帰属(AT2)は、多くのアブレーションを伴うアプローチと同等に確実に実行されますが、大幅に効率的です。
AT2のユーティリティを紹介するために、それを使用して、提供されたコンテキストの重要性の低い部分を質問に応答する設定で剪定し、回答の品質を向上させます。
https://github.com/madrylab/at2でAT2のコードを提供します。

要約(オリジナル)

Given a sequence of tokens generated by a language model, we may want to identify the preceding tokens that influence the model to generate this sequence. Performing such token attribution is expensive; a common approach is to ablate preceding tokens and directly measure their effects. To reduce the cost of token attribution, we revisit attention weights as a heuristic for how a language model uses previous tokens. Naive approaches to attribute model behavior with attention (e.g., averaging attention weights across attention heads to estimate a token’s influence) have been found to be unreliable. To attain faithful attributions, we propose treating the attention weights of different attention heads as features. This way, we can learn how to effectively leverage attention weights for attribution (using signal from ablations). Our resulting method, Attribution with Attention (AT2), reliably performs on par with approaches that involve many ablations, while being significantly more efficient. To showcase the utility of AT2, we use it to prune less important parts of a provided context in a question answering setting, improving answer quality. We provide code for AT2 at https://github.com/MadryLab/AT2 .

arxiv情報

著者 Benjamin Cohen-Wang,Yung-Sung Chuang,Aleksander Madry
発行日 2025-04-18 15:36:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Learning to Attribute with Attention はコメントを受け付けていません

BadApex: Backdoor Attack Based on Adaptive Optimization Mechanism of Black-box Large Language Models

要約

以前の挿入ベースおよび言い換えベースの背景は、攻撃の有効性に大きな成功を収めていますが、毒されたテキストとクリーンテキストの間のテキストの品質と意味的な一貫性を無視しています。
最近の研究では、LLMSを導入して中毒のテキストを生成し、ステルス性、セマンティックな一貫性、およびテキストの品質を改善しますが、手作りのプロンプトは専門家の経験に依存しており、防御後の迅速な適応性と攻撃パフォーマンスの重大な課題に直面しています。
この論文では、ブラックボックス大手言語モデル(BADAPEX)の適応最適化メカニズムに基づいた新しいバックドア攻撃を提案します。これは、ブラックボックスLLMを活用して洗練されたプロンプトを介して毒テキストを生成します。
具体的には、生成エージェントと修正エージェントを使用して、初期迅速な繰り返しを繰り返し改善するように適応的な最適化メカニズムが設計されています。
生成エージェントは、初期プロンプトに基づいて毒テキストを生成します。
次に、修正エージェントは毒されたテキストの品質を評価し、新しいプロンプトを改良します。
上記のプロセスのいくつかの反復の後、洗練されたプロンプトを使用して、LLMを介して毒テキストを生成します。
6つのバックドア攻撃と2つの防御を備えた3つのデータセットで広範な実験を行います。
広範な実験結果は、BadApexが最先端の攻撃を大幅に上回ることを示しています。
迅速な適応性、セマンティックの一貫性、およびテキストの品質を改善します。
さらに、2つの防御方法が適用される場合、平均攻撃成功率(ASR)はまだ96.75%までです。

要約(オリジナル)

Previous insertion-based and paraphrase-based backdoors have achieved great success in attack efficacy, but they ignore the text quality and semantic consistency between poisoned and clean texts. Although recent studies introduce LLMs to generate poisoned texts and improve the stealthiness, semantic consistency, and text quality, their hand-crafted prompts rely on expert experiences, facing significant challenges in prompt adaptability and attack performance after defenses. In this paper, we propose a novel backdoor attack based on adaptive optimization mechanism of black-box large language models (BadApex), which leverages a black-box LLM to generate poisoned text through a refined prompt. Specifically, an Adaptive Optimization Mechanism is designed to refine an initial prompt iteratively using the generation and modification agents. The generation agent generates the poisoned text based on the initial prompt. Then the modification agent evaluates the quality of the poisoned text and refines a new prompt. After several iterations of the above process, the refined prompt is used to generate poisoned texts through LLMs. We conduct extensive experiments on three dataset with six backdoor attacks and two defenses. Extensive experimental results demonstrate that BadApex significantly outperforms state-of-the-art attacks. It improves prompt adaptability, semantic consistency, and text quality. Furthermore, when two defense methods are applied, the average attack success rate (ASR) still up to 96.75%.

arxiv情報

著者 Zhengxian Wu,Juan Wen,Wanli Peng,Ziwei Zhang,Yinghan Zhou,Yiming Xue
発行日 2025-04-18 16:22:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | BadApex: Backdoor Attack Based on Adaptive Optimization Mechanism of Black-box Large Language Models はコメントを受け付けていません