Enhancing Coreference Resolution with Pretrained Language Models: Bridging the Gap Between Syntax and Semantics

要約

大規模な言語モデルは、Coreference Resolutionを含むさまざまな自然言語処理タスクで大きな進歩を遂げています。
ただし、従来の方法は、構文情報とセマンティック情報の統合がないため、参照関係を効果的に区別することに不足していることがよくあります。
この研究では、前提条件の言語モデルを利用することにより、コアレーション解像度を強化することを目的とした革新的なフレームワークを紹介します。
私たちのアプローチでは、構文の解析とセマンティックロールラベル付けを組み合わせて、参照関係でより細かい区別を正確にキャプチャします。
最先端の前提条件モデルを使用して、コンテキストの埋め込みを収集し、微調整のための注意メカニズムを適用することにより、Coreferenceタスクのパフォーマンスを改善します。
多様なデータセット全体の実験結果は、私たちの方法が従来のコアレーション解像度システムを上回り、参照を乱用する際の顕著な精度を達成することを示しています。
この開発は、コアレーションの解像度の結果を改善するだけでなく、正確な参照理解に依存する他の自然言語処理タスクにプラスの影響を与えます。

要約(オリジナル)

Large language models have made significant advancements in various natural language processing tasks, including coreference resolution. However, traditional methods often fall short in effectively distinguishing referential relationships due to a lack of integration between syntactic and semantic information. This study introduces an innovative framework aimed at enhancing coreference resolution by utilizing pretrained language models. Our approach combines syntax parsing with semantic role labeling to accurately capture finer distinctions in referential relationships. By employing state-of-the-art pretrained models to gather contextual embeddings and applying an attention mechanism for fine-tuning, we improve the performance of coreference tasks. Experimental results across diverse datasets show that our method surpasses conventional coreference resolution systems, achieving notable accuracy in disambiguating references. This development not only improves coreference resolution outcomes but also positively impacts other natural language processing tasks that depend on precise referential understanding.

arxiv情報

著者 Xingzu Liu,Songhang deng,Mingbang Wang,Zhang Dong,Le Dai,Jiyuan Li,Ruilin Nong
発行日 2025-04-08 09:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Enhancing Coreference Resolution with Pretrained Language Models: Bridging the Gap Between Syntax and Semantics はコメントを受け付けていません

CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

要約

コードの大規模な言語モデル(LLM)は急速に進化しており、コード編集は重要な機能として浮上しています。
Debugging、翻訳、研磨、要件の切り替えなど、コード編集タスクでのLLMのパフォーマンスを厳密に評価するように設計された評価フレームワークであるCodeeDitorBenchを紹介します。
コード生成のみに焦点を当てた既存のベンチマークとは異なり、CodeeDitorBenchは、ソフトウェア開発の実際のシナリオと実用的な側面を強調しています。
さまざまなプログラミング言語、複雑さレベル、編集タスクをカバーする5つのソースからの多様なコーディングの課題とシナリオをキュレートします。
19 LLMの評価により、クローズドソースモデル(特にGemini-UltraおよびGPT-4)がCodeeDitorBenchのオープンソースモデルよりも優れていることが明らかになり、問題の種類と迅速な感度に基づいたモデルパフォーマンスの違いを強調しています。
CodeeDitorBenchは、コード編集機能を評価するための堅牢なプラットフォームを提供することにより、LLMSの進歩を触媒することを目指しています。
コミュニティがデータセットとベンチマークの新しいLLMを拡張できるようにするために、すべてのプロンプトとデータセットをリリースします。
CodeeDitorBenchを導入することにより、コード編集におけるLLMの進歩に貢献し、研究者と実践者に貴重なリソースを提供します。

要約(オリジナル)

Large Language Models (LLMs) for code are rapidly evolving, with code editing emerging as a critical capability. We introduce CodeEditorBench, an evaluation framework designed to rigorously assess the performance of LLMs in code editing tasks, including debugging, translating, polishing, and requirement switching. Unlike existing benchmarks focusing solely on code generation, CodeEditorBench emphasizes real-world scenarios and practical aspects of software development. We curate diverse coding challenges and scenarios from five sources, covering various programming languages, complexity levels, and editing tasks. Evaluation of 19 LLMs reveals that closed-source models (particularly Gemini-Ultra and GPT-4), outperform open-source models in CodeEditorBench, highlighting differences in model performance based on problem types and prompt sensitivities. CodeEditorBench aims to catalyze advancements in LLMs by providing a robust platform for assessing code editing capabilities. We will release all prompts and datasets to enable the community to expand the dataset and benchmark emerging LLMs. By introducing CodeEditorBench, we contribute to the advancement of LLMs in code editing and provide a valuable resource for researchers and practitioners.

arxiv情報

著者 Jiawei Guo,Ziming Li,Xueling Liu,Kaijing Ma,Tianyu Zheng,Zhouliang Yu,Ding Pan,Yizhi LI,Ruibo Liu,Yue Wang,Shuyue Guo,Xingwei Qu,Xiang Yue,Ge Zhang,Wenhu Chen,Jie Fu
発行日 2025-04-08 09:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | CodeEditorBench: Evaluating Code Editing Capability of Large Language Models はコメントを受け付けていません

Are Generative AI Agents Effective Personalized Financial Advisors?

要約

大規模な言語モデルベースのエージェントは、パーソナライズされた会話のアドバイスを提供する低コストのメカニズムとしてますます人気があり、映画の推奨など、比較的単純なシナリオで印象的な能力を実証しています。
しかし、これらのエージェントは、ドメインの専門知識が不可欠であり、間違いがかなりのリスクをもたらす複雑なハイステークスドメインでどのように機能しますか?
このペーパーでは、金融ドメインにおけるLLMアドバイザーの有効性を調査し、3つの異なる課題に焦点を当てています。(1)ユーザー自体が自分のニーズがわからない場合にユーザーの好みを引き出す(2)多様な投資選好のためのパーソナライズされたガイダンスを提供し、(3)関係を構築して信頼を構築するためのアドバイザーパーソナリティを活用します。
64人の参加者を対象としたラボベースのユーザー調査を介して、LLMアドバイザーは、好みを引き出すときに人間のアドバイザーのパフォーマンスと一致することがよくありますが、対立するユーザーのニーズを解決するのに苦労する可能性があります。
パーソナライズされたアドバイスを提供するとき、LLMはユーザーの行動にプラスの影響を与えることができましたが、明確な障害モードを実証しました。
私たちの結果は、正確な好みの誘発が重要であることを示しています。そうでなければ、LLMアドバイザーはほとんど影響を与えないか、投資家に不適切な資産に向けることさえできます。
さらに心配なことに、ユーザーは与えられているアドバイスの質に敏感ではないように見えます。または、さらに悪いことに、これらは逆の関係を持つ可能性があります。
実際、ユーザーは、それらのエージェントがより悪いアドバイスを提供したとしても、LLMSが外向的なペルソナを採用することに対する満足度と感情的な信頼を好むことと感情的な信頼を報告しました。

要約(オリジナル)

Large language model-based agents are becoming increasingly popular as a low-cost mechanism to provide personalized, conversational advice, and have demonstrated impressive capabilities in relatively simple scenarios, such as movie recommendations. But how do these agents perform in complex high-stakes domains, where domain expertise is essential and mistakes carry substantial risk? This paper investigates the effectiveness of LLM-advisors in the finance domain, focusing on three distinct challenges: (1) eliciting user preferences when users themselves may be unsure of their needs, (2) providing personalized guidance for diverse investment preferences, and (3) leveraging advisor personality to build relationships and foster trust. Via a lab-based user study with 64 participants, we show that LLM-advisors often match human advisor performance when eliciting preferences, although they can struggle to resolve conflicting user needs. When providing personalized advice, the LLM was able to positively influence user behavior, but demonstrated clear failure modes. Our results show that accurate preference elicitation is key, otherwise, the LLM-advisor has little impact, or can even direct the investor toward unsuitable assets. More worryingly, users appear insensitive to the quality of advice being given, or worse these can have an inverse relationship. Indeed, users reported a preference for and increased satisfaction as well as emotional trust with LLMs adopting an extroverted persona, even though those agents provided worse advice.

arxiv情報

著者 Takehiro Takayanagi,Kiyoshi Izumi,Javier Sanz-Cruzado,Richard McCreadie,Iadh Ounis
発行日 2025-04-08 09:41:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.IR, q-fin.CP | Are Generative AI Agents Effective Personalized Financial Advisors? はコメントを受け付けていません

Understanding Layer Significance in LLM Alignment

要約

監視された微調整を介した大規模な言語モデル(LLM)を調整することは、特定のアプリケーションに合わせて調整するために不可欠です。
最近の研究では、アラインメントが基本的な知識ではなく、モデルのプレゼンテーションスタイルを主に調整することを示唆しており、モデルの特定のコンポーネントのみが大きな影響を受けていることを示しています。
アラインメントが粒状レベルでモデルの動作にどのように影響するかを明らかにするために、LLM内のどの層がアライメントプロセスにとって最も重要であるかを特定することを提案します。
ILAという名前の私たちのアプローチは、層の有意性の指標として、アラインメント中の各層のパラメーターの変化のバイナリマスクを学習することを伴います。
実験結果は、アライメントデータセットの実質的な違いにもかかわらず、ILAによって識別されるモデルの重要な層がほぼ90%の重複を示し、LLMアライメントの基本パターンを強調することを明らかにしています。
また、結果は、非必須層の凍結により全体的なモデルのパフォーマンスが向上することを示していますが、最も重要な層を選択的に調整すると、パフォーマンスの低下で微調整効率が大幅に向上します。
最後に、これらの調査結果がLLMアライメントから推論にどのように及ぶかについて説明します。

要約(オリジナル)

Aligning large language models (LLMs) through supervised fine-tuning is essential for tailoring them to specific applications. Recent studies suggest that alignment primarily adjusts a model’s presentation style rather than its foundational knowledge, indicating that only certain components of the model are significantly impacted. To uncover how alignment affects model behavior at a granular level, we propose identifying which layers within LLMs are most critical to the alignment process. Our approach, named ILA, involves learning a binary mask for the parameter changes in each layer during alignment, as an indicator of layer significance. Experimental results reveal that, despite substantial differences in alignment datasets, the important layers of a model identified by ILA exhibit nearly 90\% overlap, highlighting fundamental patterns in LLM alignment. The results also indicate that freezing non-essential layers improves overall model performance, while selectively tuning the most critical layers significantly enhances fine-tuning efficiency with minimal performance loss. Finally, we discuss how these findings extend from LLM alignment to reasoning.

arxiv情報

著者 Guangyuan Shi,Zexin Lu,Xiaoyu Dong,Wenlong Zhang,Xuanyu Zhang,Yujie Feng,Xiao-Ming Wu
発行日 2025-04-08 09:44:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Understanding Layer Significance in LLM Alignment はコメントを受け付けていません

Pub-Guard-LLM: Detecting Fraudulent Biomedical Articles with Reliable Explanations

要約

かなりの数の公開されている科学記事の数は、詐欺的な慣行を含むことがわかっており、医学などの分野での研究の信頼性と安全性に対する深刻な脅威をもたらします。
生物医学の科学記事の詐欺検出に合わせた最初の大規模な言語モデルベースのシステムであるPub-Guard-llmを提案します。
Pub-Guard-llmの展開のための3つのアプリケーションモード、Vanilla Reasoning、検索の高級世代、およびマルチエージェントの議論を提供します。
各モードでは、予測のテキストの説明が可能になります。
システムのパフォーマンスを評価するために、メタデータや収縮ラベルを含む11K以上の実世界の生物医学物品を含む、オープンソースベンチマークであるPubMed Retractionを紹介します。
すべてのモードで、Pub-Guard-llmがさまざまなベースラインのパフォーマンスを一貫して上回り、より信頼できる説明、つまり、複数の評価方法で評価されたときにベースラインによって生成されたものよりも関連性がありコヒーレントと見なされる説明を提供することを示します。
科学的詐欺検出の検出性能と説明可能性の両方を高めることにより、Pub-Guard-llmは、斬新で効果的なオープンソースツールで研究の完全性を保護することに貢献します。

要約(オリジナル)

A significant and growing number of published scientific articles is found to involve fraudulent practices, posing a serious threat to the credibility and safety of research in fields such as medicine. We propose Pub-Guard-LLM, the first large language model-based system tailored to fraud detection of biomedical scientific articles. We provide three application modes for deploying Pub-Guard-LLM: vanilla reasoning, retrieval-augmented generation, and multi-agent debate. Each mode allows for textual explanations of predictions. To assess the performance of our system, we introduce an open-source benchmark, PubMed Retraction, comprising over 11K real-world biomedical articles, including metadata and retraction labels. We show that, across all modes, Pub-Guard-LLM consistently surpasses the performance of various baselines and provides more reliable explanations, namely explanations which are deemed more relevant and coherent than those generated by the baselines when evaluated by multiple assessment methods. By enhancing both detection performance and explainability in scientific fraud detection, Pub-Guard-LLM contributes to safeguarding research integrity with a novel, effective, open-source tool.

arxiv情報

著者 Lihu Chen,Shuojie Fu,Gabriel Freedman,Cemre Zor,Guy Martin,James Kinross,Uddhav Vaghela,Ovidiu Serban,Francesca Toni
発行日 2025-04-08 10:27:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Pub-Guard-LLM: Detecting Fraudulent Biomedical Articles with Reliable Explanations はコメントを受け付けていません

CliniQ: A Multi-faceted Benchmark for Electronic Health Record Retrieval with Semantic Match Assessment

要約

電子健康記録(EHR)の検索は、さまざまな臨床タスクで極めて重要な役割を果たしていますが、その開発は、公的に利用可能なベンチマークの欠如によって厳しく妨げられています。
この論文では、このギャップに対処するために、新しい公開EHR検索ベンチマークであるCliniqを紹介します。
2つの検索設定を検討します。単一患者の検索と多患者の検索を検討し、さまざまな現実世界のシナリオを反映しています。
単一患者の検索は、患者ノート内の関連部品を見つけることに焦点を当てていますが、多患者の検索には複数の患者からEHRを取得することが含まれます。
Mimic-IIIのICDコードと処方ラベルとともに、1,000の放電概要ノートにベンチマークを構築し、強力なLLMをアノテーターとしてさらに活用することにより、77,206の関連判断を伴う1,246の一意のクエリを収集します。
さらに、マッチングタイプを文字列マッチと4種類のセマンティックマッチに分類することにより、EHR検索のセマンティックギャップ問題の新しい評価を含めます。
提案されているベンチマークでは、従来の正確な一致から一般的な密なレトリバーに至るまで、さまざまな検索方法の包括的な評価を実施します。
私たちの実験では、BM25が強力なベースラインを設定し、密なレトリバーに競争力のあるパフォーマンスを発揮し、一般的なドメインの密なレトリーバーは驚くほど医療ドメイン向けに設計されたものよりも優れていることがわかります。
さまざまなマッチングタイプの詳細な分析により、さまざまな方法の強みと欠点が明らかになり、ターゲットの改善の可能性が啓発されます。
当社のベンチマークは、研究コミュニティを刺激してEHR検索システムを前進させると考えています。

要約(オリジナル)

Electronic Health Record (EHR) retrieval plays a pivotal role in various clinical tasks, but its development has been severely impeded by the lack of publicly available benchmarks. In this paper, we introduce a novel public EHR retrieval benchmark, CliniQ, to address this gap. We consider two retrieval settings: Single-Patient Retrieval and Multi-Patient Retrieval, reflecting various real-world scenarios. Single-Patient Retrieval focuses on finding relevant parts within a patient note, while Multi-Patient Retrieval involves retrieving EHRs from multiple patients. We build our benchmark upon 1,000 discharge summary notes along with the ICD codes and prescription labels from MIMIC-III, and collect 1,246 unique queries with 77,206 relevance judgments by further leveraging powerful LLMs as annotators. Additionally, we include a novel assessment of the semantic gap issue in EHR retrieval by categorizing matching types into string match and four types of semantic matches. On our proposed benchmark, we conduct a comprehensive evaluation of various retrieval methods, ranging from conventional exact match to popular dense retrievers. Our experiments find that BM25 sets a strong baseline and performs competitively to the dense retrievers, and general domain dense retrievers surprisingly outperform those designed for the medical domain. In-depth analyses on various matching types reveal the strengths and drawbacks of different methods, enlightening the potential for targeted improvement. We believe that our benchmark will stimulate the research communities to advance EHR retrieval systems.

arxiv情報

著者 Zhengyun Zhao,Hongyi Yuan,Jingjing Liu,Haichao Chen,Huaiyuan Ying,Songchi Zhou,Yue Zhong,Sheng Yu
発行日 2025-04-08 10:32:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | CliniQ: A Multi-faceted Benchmark for Electronic Health Record Retrieval with Semantic Match Assessment はコメントを受け付けていません

DiVA-DocRE: A Discriminative and Voice-Aware Paradigm for Document-Level Relation Extraction

要約

テキスト理解と生成における大規模な言語モデル(LLM)の顕著な能力は、情報抽出(すなわち)に革命をもたらしました。
そのような進歩の1つは、ドキュメントレベルの関係トリプレット抽出(DOCRTE)です。これは、ドキュメントからエンティティとそのセマンティック関係を抽出することを目的とする情報システムの重要なタスクです。
ただし、既存の方法は、主に文レベル関係のトリプレット抽出(Sentrte)向けに設計されており、通常、限られた関係のセットとトリプレットの事実を単一の文で処理します。
さらに、一部のアプローチでは、関係をプロンプトテンプレートに統合した候補の選択肢として扱い、トリプレットの関係要素を決定する際に非効率的な処理と最適ではないパフォーマンスをもたらします。
これらの制限に対処するために、差別的および音声認識パラダイム歌姫を紹介します。
DIVAには、ドキュメントレベルの関係抽出(Docre)の実行と、関係に基づいてサブジェクトオブジェクトエンティティを識別するという2つのステップのみが含まれます。
追加の処理は必要ありません。トリプレットを直接取得するためにドキュメントを入力するだけです。
この合理化されたプロセスは、トリプレット抽出の現実世界のシナリオをより正確に反映しています。
私たちのイノベーションは、ドドルを差別的なタスクに変えることにあります。そこでは、モデルは各関係と、トリプレット内のアクティブな音声とパッシブ音声のしばしば見過ごされがちな問題に注意を払っています。
再ドックされたデータセットとdredられたデータセットに関する実験は、docrteタスクの最先端の結果を示しています。

要約(オリジナル)

The remarkable capabilities of Large Language Models (LLMs) in text comprehension and generation have revolutionized Information Extraction (IE). One such advancement is in Document-level Relation Triplet Extraction (DocRTE), a critical task in information systems that aims to extract entities and their semantic relationships from documents. However, existing methods are primarily designed for Sentence level Relation Triplet Extraction (SentRTE), which typically handles a limited set of relations and triplet facts within a single sentence. Additionally, some approaches treat relations as candidate choices integrated into prompt templates, resulting in inefficient processing and suboptimal performance when determining the relation elements in triplets. To address these limitations, we introduce a Discriminative and Voice Aware Paradigm DiVA. DiVA involves only two steps: performing document-level relation extraction (DocRE) and then identifying the subject object entities based on the relation. No additional processing is required simply input the document to directly obtain the triplets. This streamlined process more accurately reflects real-world scenarios for triplet extraction. Our innovation lies in transforming DocRE into a discriminative task, where the model pays attention to each relation and to the often overlooked issue of active vs. passive voice within the triplet. Our experiments on the Re-DocRED and DocRED datasets demonstrate state-of-the-art results for the DocRTE task.

arxiv情報

著者 Yiheng Wu,Roman Yangarber,Xian Mao
発行日 2025-04-08 10:43:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | DiVA-DocRE: A Discriminative and Voice-Aware Paradigm for Document-Level Relation Extraction はコメントを受け付けていません

Assessing Thai Dialect Performance in LLMs with Automatic Benchmarks and Human Evaluation

要約

大規模な言語モデルは、さまざまなNLPタスクで有望な結果を示しています。
これらの成功にもかかわらず、特に地元の方言に関して、過小評価されている言語におけるLLMの堅牢性と一貫性はほとんど未踏のままです。
既存のベンチマークは、地元の方言のテキストに対するLLMの能力を無視して、主要な方言にも焦点を当てています。
この論文では、北(ランナ)、北東(イサン)、および南部(ダンブロ)タイをカバーするタイの地元の方言ベンチマークを紹介し、5つのNLPタスクでLLMを評価します:要約、質問への回答、翻訳、会話、食品関連のタスク。
さらに、世代の流encyさと方言固有の精度を評価するために、タイの地元の方言の人間の評価ガイドラインと指標を提案します。
結果は、LLMのパフォーマンスが標準のタイ語と比較してローカルタイ方言で大幅に低下し、GPT-4OやGemini2のような独自モデルのみがある程度の流ency性を示していることを示しています。

要約(オリジナル)

Large language models show promising results in various NLP tasks. Despite these successes, the robustness and consistency of LLMs in underrepresented languages remain largely unexplored, especially concerning local dialects. Existing benchmarks also focus on main dialects, neglecting LLMs’ ability on local dialect texts. In this paper, we introduce a Thai local dialect benchmark covering Northern (Lanna), Northeastern (Isan), and Southern (Dambro) Thai, evaluating LLMs on five NLP tasks: summarization, question answering, translation, conversation, and food-related tasks. Furthermore, we propose a human evaluation guideline and metric for Thai local dialects to assess generation fluency and dialect-specific accuracy. Results show that LLM performance declines significantly in local Thai dialects compared to standard Thai, with only proprietary models like GPT-4o and Gemini2 demonstrating some fluency

arxiv情報

著者 Peerat Limkonchotiwat,Kanruethai Masuk,Surapon Nonesung,Chalermpun Mai-On,Sarana Nutanong,Wuttikorn Ponwitayarat,Potsawee Manakul
発行日 2025-04-08 10:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Assessing Thai Dialect Performance in LLMs with Automatic Benchmarks and Human Evaluation はコメントを受け付けていません

Green Prompting

要約

大規模な言語モデル(LLM)は、検索エンジン、コード生成、テキスト作成にまたがるさまざまなドメインで広く使用されています。
ただし、採用に関連する主な懸念は、推論のコストが高く、持続可能性と財政的実現可能性の両方に影響を与えることです。
この研究では、異なる迅速な迅速な特性と応答特性がLLM推論エネルギーコストに直接影響する方法を経験的に研究します。
3つのタスクタイプ$-$の質問応答、センチメント分析、およびテキスト生成にまたがる3つのオープンソーストランスベースのLLMを活用する実験を実施します。
各推論について、プロンプトと応答の特性(長さ、意味的な意味、時間、エネルギー消費)を分析しました。
我々の結果は、同一のタスクが提示されたとしても、モデルがさまざまな特性を持つ応答を生成し、その後異なるエネルギー消費パターンを示すことを示しています。
プロンプトの長さは、タスク自体の意味的な意味よりも重要ではないことがわかりました。
さらに、関連するタスク間で異なるエネルギー使用量が多いか、低いエネルギー使用量に関連する特定のキーワードを特定しました。
これらの調査結果は、推論効率を最適化する際の迅速な設計の重要性を強調しています。
プロンプトの意味的な意味と特定のタスク関連のキーワードは、推論コストに大きく影響し、エネルギー適応LLMSの作成に向けてより深い探求を導く方法をリードしていると結論付けています。

要約(オリジナル)

Large Language Models (LLMs) have become widely used across various domains spanning search engines, code generation, and text creation. However, a major concern associated with their adoption is the high cost of inference, impacting both their sustainability and financial feasibility. In this study, we empirically study how different prompt and response characteristics directly impact LLM inference energy cost. We conduct experiments leveraging three open-source transformer-based LLMs across three task types$-$question answering, sentiment analysis, and text generation. For each inference, we analyzed prompt and response characteristics (length, semantic meaning, time taken, energy consumption). Our results demonstrate that even when presented with identical tasks, models generate responses with varying characteristics and subsequently exhibit distinct energy consumption patterns. We found that prompt length is less significant than the semantic meaning of the task itself. In addition, we identified specific keywords associated with higher or lower energy usage that vary between associated tasks. These findings highlight the importance of prompt design in optimizing inference efficiency. We conclude that the semantic meaning of prompts and certain task-related keywords significantly impact inference costs, leading the way for deeper exploration towards creating energy-adaptive LLMs.

arxiv情報

著者 Marta Adamska,Daria Smirnova,Hamid Nasiri,Zhengxin Yu,Peter Garraghan
発行日 2025-04-08 10:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Green Prompting はコメントを受け付けていません

Defending Deep Neural Networks against Backdoor Attacks via Module Switching

要約

ディープニューラルネットワーク(DNNS)のパラメーターの指数関数的な増加により、特にリソースが制約したエンティティにとって、独立したトレーニングのコストが大幅に引き上げられました。
その結果、オープンソースモデルへの依存度が高まっています。
しかし、トレーニングプロセスの不透明度はセキュリティリスクを悪化させ、これらのモデルをバックドア攻撃などの悪意のある脅威に対してより脆弱にし、同時に防御メカニズムを複雑にします。
均一なモデルの融合は、費用対効果の高いトレーニング後の防御として注目を集めています。
ただし、重量平均などの既存の戦略は、毒パラメーターの影響を部分的に軽減し、モデルパラメーターに埋め込まれた広範な偽の相関を破壊するのに効果がないことに気付きます。
モデルの伝播パス内でそのような偽の相関を破るための新しいモジュールスイッチング戦略を提案します。
融合戦略を最適化するために進化的アルゴリズムを活用することにより、テキストとビジョンドメインをターゲットとするバックドア攻撃に対するアプローチを検証します。
私たちの方法は、いくつかの侵害されたモデルを組み込んだ場合でも、効果的なバックドア緩和を実現します。たとえば、SST-2で最高のパフォーマンスを発揮するベースラインで、平均攻撃成功率(ASR)を31.9%と比較して22%に減らします。

要約(オリジナル)

The exponential increase in the parameters of Deep Neural Networks (DNNs) has significantly raised the cost of independent training, particularly for resource-constrained entities. As a result, there is a growing reliance on open-source models. However, the opacity of training processes exacerbates security risks, making these models more vulnerable to malicious threats, such as backdoor attacks, while simultaneously complicating defense mechanisms. Merging homogeneous models has gained attention as a cost-effective post-training defense. However, we notice that existing strategies, such as weight averaging, only partially mitigate the influence of poisoned parameters and remain ineffective in disrupting the pervasive spurious correlations embedded across model parameters. We propose a novel module-switching strategy to break such spurious correlations within the model’s propagation path. By leveraging evolutionary algorithms to optimize fusion strategies, we validate our approach against backdoor attacks targeting text and vision domains. Our method achieves effective backdoor mitigation even when incorporating a couple of compromised models, e.g., reducing the average attack success rate (ASR) to 22% compared to 31.9% with the best-performing baseline on SST-2.

arxiv情報

著者 Weijun Li,Ansh Arora,Xuanli He,Mark Dras,Qiongkai Xu
発行日 2025-04-08 11:01:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, I.2.10 | Defending Deep Neural Networks against Backdoor Attacks via Module Switching はコメントを受け付けていません