Explainable Artificial Intelligence (XAI) for Malware Analysis: A Survey of Techniques, Applications, and Open Challenges

要約

機械学習(ML)は近年急速に進歩しており、金融、医学、サイバーセキュリティなどの分野に革命をもたらしています。
マルウェア検出では、MLベースのアプローチが高精度を実証しています。
しかし、彼らの透明性の欠如は大きな課題をもたらします。
従来のブラックボックスモデルは、予測に対して解釈可能な正当化を提供することができず、検出の背後にある理由を理解することが脅威の緩和と対応に不可欠なセキュリティ批判的な環境での採用を制限することができます。
説明可能なAI(XAI)は、強力な検出機能を維持しながらモデルの解釈可能性を高めることにより、このギャップに対処します。
この調査では、説明可能性の方法に特に焦点を当てた、マルウェア分析のための最先端のML技術の包括的なレビューを提示します。
既存のXAIフレームワーク、マルウェア分類と検出におけるアプリケーション、およびマルウェア検出モデルのより解釈可能にすることに関連する課題を調べます。
さらに、最近の進歩を調査し、説明可能なマルウェア分析の分野で開かれた研究の課題を強調します。
Xai駆動型のマルウェア検出アプローチの構造化された概要を提供することにより、この調査は、サイバーセキュリティのMLパフォーマンスと説明可能性のギャップを埋めることを目指している研究者と実践者にとって貴重なリソースとして機能します。

要約(オリジナル)

Machine learning (ML) has rapidly advanced in recent years, revolutionizing fields such as finance, medicine, and cybersecurity. In malware detection, ML-based approaches have demonstrated high accuracy; however, their lack of transparency poses a significant challenge. Traditional black-box models often fail to provide interpretable justifications for their predictions, limiting their adoption in security-critical environments where understanding the reasoning behind a detection is essential for threat mitigation and response. Explainable AI (XAI) addresses this gap by enhancing model interpretability while maintaining strong detection capabilities. This survey presents a comprehensive review of state-of-the-art ML techniques for malware analysis, with a specific focus on explainability methods. We examine existing XAI frameworks, their application in malware classification and detection, and the challenges associated with making malware detection models more interpretable. Additionally, we explore recent advancements and highlight open research challenges in the field of explainable malware analysis. By providing a structured overview of XAI-driven malware detection approaches, this survey serves as a valuable resource for researchers and practitioners seeking to bridge the gap between ML performance and explainability in cybersecurity.

arxiv情報

著者 Harikha Manthena,Shaghayegh Shajarian,Jeffrey Kimmell,Mahmoud Abdelsalam,Sajad Khorsandroo,Maanak Gupta
発行日 2025-02-07 16:44:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Explainable Artificial Intelligence (XAI) for Malware Analysis: A Survey of Techniques, Applications, and Open Challenges はコメントを受け付けていません

Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures

要約

大規模な言語モデル(LLMS)は印象的な推論能力を実証していますが、そのパフォーマンスは促す戦略とモデルスケールに大きく依存しています。
強化学習と微調整が展開され、推論を強化していますが、これらのアプローチはかなりの計算とデータのオーバーヘッドが発生します。
この作業では、テスト時にのみLLMの推論を強化する動的なグラフベースの推論フレームワークである思考の適応グラフ(AGOT)を紹介します。
Agotは、思考のチェーン(Cot)やTree of Thought(TOT)などの固定段階の方法に依存するのではなく、複雑なクエリを構造化されたサブ問題に再帰的に分解し、相互依存の推論ステップの動的指向の非環式グラフ(DAG)を形成します。
さらなる分析を必要とするサブ問題のみを選択的に拡大することにより、Agotは、チェーン、ツリー、グラフのパラダイムの強さを、最も必要な場合に計算を割り当てるまとまりのあるフレームワークに統合します。
マルチホップの回復、科学的推論、数学的問題解決にまたがる多様なベンチマークでのアプローチを検証し、科学的推論タスク(GPQA)の最大46.2%の改善を達成します。
最大の反復アプローチ。
これらの結果は、動的な分解と構造化された再帰が、トレーニング後の修正のスケーラブルで費用対効果の高い代替品を提供し、LLMSのより堅牢で汎用的な推論への道を開くことを示唆しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive reasoning capabilities, yet their performance is highly dependent on the prompting strategy and model scale. While reinforcement learning and fine-tuning have been deployed to boost reasoning, these approaches incur substantial computational and data overhead. In this work, we introduce Adaptive Graph of Thoughts (AGoT), a dynamic, graph-based inference framework that enhances LLM reasoning solely at test time. Rather than relying on fixed-step methods like Chain of Thought (CoT) or Tree of Thoughts (ToT), AGoT recursively decomposes complex queries into structured subproblems, forming an dynamic directed acyclic graph (DAG) of interdependent reasoning steps. By selectively expanding only those subproblems that require further analysis, AGoT unifies the strengths of chain, tree, and graph paradigms into a cohesive framework that allocates computation where it is most needed. We validate our approach on diverse benchmarks spanning multi-hop retrieval, scientific reasoning, and mathematical problem-solving, achieving up to 46.2% improvement on scientific reasoning tasks (GPQA) – comparable to gains achieved through computationally intensive reinforcement learning approaches and outperforming state-of-the-art iterative approaches. These results suggest that dynamic decomposition and structured recursion offer a scalable, cost-effective alternative to post-training modifications, paving the way for more robust, general-purpose reasoning in LLMs.

arxiv情報

著者 Tushar Pandey,Ara Ghukasyan,Oktay Goktas,Santosh Kumar Radha
発行日 2025-02-07 16:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures はコメントを受け付けていません

ChallengeMe: An Adversarial Learning-enabled Text Summarization Framework

要約

大規模な言語モデル(LLMS)の驚くべきパフォーマンスと生産と日常生活における驚くべき成果により、共同作業における広範な応用が生まれました。
ただし、現在の大規模なモデルは、幻覚や垂直ドメインタスクのコンテンツ生成の特異性の欠如などの課題に直面しています。
人間の認知プロセスにおけるコントラストと分類のメカニズムに触発されたこのペーパーでは、3つのカスケードソリューションの3つのカスケードソリューション、評価プロンプト、フィードバックの最適化を含む敵対的な学習ベースのプロンプトフレームワークを構築します。
このプロセスでは、7つのコア最適化ディメンションを設計し、敵対学習のしきい値を設定します。
テキスト要約タスクに関する混合ケーススタディの結果は、提案されたフレームワークが現在の高度な主流LLMと比較して、より正確で流fluentなテキストの要約を生成できることを示しています。

要約(オリジナル)

The astonishing performance of large language models (LLMs) and their remarkable achievements in production and daily life have led to their widespread application in collaborative tasks. However, current large models face challenges such as hallucination and lack of specificity in content generation in vertical domain tasks. Inspired by the contrast and classification mechanisms in human cognitive processes, this paper constructs an adversarial learning-based prompt framework named ChallengeMe, which includes three cascaded solutions: generation prompts, evaluation prompts, and feedback optimization. In this process, we designed seven core optimization dimensions and set the threshold for adversarial learning. The results of mixed case studies on the text summarization task show that the proposed framework can generate more accurate and fluent text summaries compared to the current advanced mainstream LLMs.

arxiv情報

著者 Xiaoyu Deng,Ye Zhang,Tianmin Guo,Yongzhe Zhang,Zhengjian Kang,Hang Yang
発行日 2025-02-07 16:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ChallengeMe: An Adversarial Learning-enabled Text Summarization Framework はコメントを受け付けていません

Causality can systematically address the monsters under the bench(marks)

要約

実証的な機械学習を進めるためには、効果的で信頼できる評価が不可欠です。
しかし、ジェネラリストモデルのアクセシビリティの向上と、ますます複雑で高レベルのタスクに向けた進歩により、体系的な評価がより困難になります。
ベンチマークは、さまざまなバイアス、アーティファクト、または漏れに悩まされていますが、モデルは故障モードが十分に調査されていないため、間違いなく動作する可能性があります。
そのような「モンスター」の無計画な治療と一貫性のない定式化は、努力の重複、結果への信頼の欠如、およびサポートされていない推論に貢献する可能性があります。
このポジションペーパーでは、因果関係がこれらの課題に体系的に対処するための理想的なフレームワークを提供すると主張しています。
明示的なアプローチで因果的な仮定を行うことにより、現象を忠実にモデル化し、説明力を備えたテスト可能な仮説を定式化し、分析のために原則ツールを活用できます。
因果モデルの設計をよりアクセスしやすくするために、大規模な言語モデルの推論能力への洞察を得るのに役立つ因果グラフのいくつかの有用な一般的な抽象トポロジ(CAT)を特定します。
一連のケーススタディを通じて、因果関係の正確でありながら実用的な言語がどのように方法の強みと制限を明確にし、体系的な進歩のための新しいアプローチを刺激するかを示します。

要約(オリジナル)

Effective and reliable evaluation is essential for advancing empirical machine learning. However, the increasing accessibility of generalist models and the progress towards ever more complex, high-level tasks make systematic evaluation more challenging. Benchmarks are plagued by various biases, artifacts, or leakage, while models may behave unreliably due to poorly explored failure modes. Haphazard treatments and inconsistent formulations of such ‘monsters’ can contribute to a duplication of efforts, a lack of trust in results, and unsupported inferences. In this position paper, we argue causality offers an ideal framework to systematically address these challenges. By making causal assumptions in an approach explicit, we can faithfully model phenomena, formulate testable hypotheses with explanatory power, and leverage principled tools for analysis. To make causal model design more accessible, we identify several useful Common Abstract Topologies (CATs) in causal graphs which help gain insight into the reasoning abilities in large language models. Through a series of case studies, we demonstrate how the precise yet pragmatic language of causality clarifies the strengths and limitations of a method and inspires new approaches for systematic progress.

arxiv情報

著者 Felix Leeb,Zhijing Jin,Bernhard Schölkopf
発行日 2025-02-07 17:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Causality can systematically address the monsters under the bench(marks) はコメントを受け付けていません

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

要約

Federated Learning(FL)は、クライアント間の直接データ露出を回避する共同トレーニングの人気のあるパラダイムです。
ただし、データのプライバシーの問題はまだ残っています。FLトレーニングを受けた大規模な言語モデルは、プレフィックスで与えられたときにトレーニングデータに含まれるフレーズと文を記憶して完成させることができます。
したがって、敵対的で正直なが、しかし頻繁なクライアントは、ターゲットを絞ったプロンプトを通じて他の参加者のトレーニングデータを回復することが可能です。
この作業では、人気のあるシンプルな微調整戦略である低ランクの適応(LORA)がFLの記憶を10倍に減らすことを実証します。
外部の臨床データセットから描かれた分散型に敏感なシーケンスの複数のレプリカを注入します。
さまざまなLlama 2および3モデ​​ルの暗記の減少を観察し、Loraが集中学習の記憶を減らすことができることを発見しました。
さらに、LORAは、グラデーションクリッピングやガウスノーシング、安全な集約、金魚の損失などの他のプライバシーを提供する技術と組み合わせることで、パフォーマンスを維持しながらレコードレベルのプライバシーをさらに改善できることを示しています。

要約(オリジナル)

Federated learning (FL) is a popular paradigm for collaborative training which avoids direct data exposure between clients. However, data privacy issues still remain: FL-trained large language models are capable of memorizing and completing phrases and sentences contained in training data when given with their prefixes. Thus, it is possible for adversarial and honest-but-curious clients to recover training data of other participants simply through targeted prompting. In this work, we demonstrate that a popular and simple fine-tuning strategy, low-rank adaptation (LoRA), reduces memorization during FL up to a factor of 10. We study this effect by performing a medical question-answering fine-tuning task and injecting multiple replicas of out-of-distribution sensitive sequences drawn from an external clinical dataset. We observe a reduction in memorization for a wide variety of Llama 2 and 3 models, and find that LoRA can reduce memorization in centralized learning as well. Furthermore, we show that LoRA can be combined with other privacy-preserving techniques such as gradient clipping and Gaussian noising, secure aggregation, and Goldfish loss to further improve record-level privacy while maintaining performance.

arxiv情報

著者 Thierry Bossy,Julien Vignoud,Tahseen Rabbani,Juan R. Troncoso Pastoriza,Martin Jaggi
発行日 2025-02-07 17:04:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs はコメントを受け付けていません

Learning Temporal Invariance in Android Malware Detectors

要約

学習ベースのAndroidマルウェア検出器は、マルウェアのバリエーションと新しいファミリによって引き起こされる自然な分布ドリフトのために、時間の経過とともに分解します。
このペーパーでは、経験的リスク最小化(ERM)がそのような分布シフトに対して直面して訓練された課題を体系的に調査し、それらの欠点を安定した識別機能を学習できないことに起因します。
不変学習理論は、モデルがトレーニングセットの不安定性を明らかにする安定した表現を越える環境を生成するよう奨励することにより、有望なソリューションを提供します。
ただし、以前の環境ラベルの欠如、ドリフト要因の多様性、多様な家族によって引き起こされる低品質の表現により、このタスクは困難になります。
これらの問題に対処するために、マルウェア検出のための最初の時間的不変トレーニングフレームワークであるTIFを提案します。これは、時間をかけて安定した表現を学習する検出器の能力を高めることを目的としています。
TIFは、アプリケーションの観測日に基づいて環境を整理して、時間的ドリフトを明らかにし、特殊なマルチプロキシの対照学習と不変勾配アライメントを統合して、高品質で安定した表現と環境を生成および整列させます。
TIFは、学習ベースの検出器にシームレスに統合できます。
10年にわたるデータセットでの実験は、TIFが、特に早期展開段階で優れており、実際のニーズに対処し、最先端の方法を上回ることを示しています。

要約(オリジナル)

Learning-based Android malware detectors degrade over time due to natural distribution drift caused by malware variants and new families. This paper systematically investigates the challenges classifiers trained with empirical risk minimization (ERM) face against such distribution shifts and attributes their shortcomings to their inability to learn stable discriminative features. Invariant learning theory offers a promising solution by encouraging models to generate stable representations crossing environments that expose the instability of the training set. However, the lack of prior environment labels, the diversity of drift factors, and low-quality representations caused by diverse families make this task challenging. To address these issues, we propose TIF, the first temporal invariant training framework for malware detection, which aims to enhance the ability of detectors to learn stable representations across time. TIF organizes environments based on application observation dates to reveal temporal drift, integrating specialized multi-proxy contrastive learning and invariant gradient alignment to generate and align environments with high-quality, stable representations. TIF can be seamlessly integrated into any learning-based detector. Experiments on a decade-long dataset show that TIF excels, particularly in early deployment stages, addressing real-world needs and outperforming state-of-the-art methods.

arxiv情報

著者 Xinran Zheng,Shuo Yang,Edith C. H. Ngai,Suman Jana,Lorenzo Cavallaro
発行日 2025-02-07 17:17:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Learning Temporal Invariance in Android Malware Detectors はコメントを受け付けていません

Leveraging Hypernetworks and Learnable Kernels for Consumer Energy Forecasting Across Diverse Consumer Types

要約

消費者エネルギー予測は、エネルギー消費と計画を管理し、運用効率、コスト削減、パーソナライズされたエネルギー管理、持続可能性の取り組みに直接影響を与えるために不可欠です。
近年、深い学習技術、特にLSTMと変圧器は、エネルギー消費予測の分野で大成功を収めています。
それにもかかわらず、これらの手法は複雑で突然のバリエーションをキャプチャするのが困難であり、さらに、特定のタイプの消費者(たとえば、オフィスのみ、学校のみ)でのみ調べられます。
その結果、このペーパーでは、多様な消費者に適用される複雑なパターンの改善されたモデリングのためにハイパーネットワークを活用する消費者エネルギー予測戦略であるハイパーエネルギーを提案します。
HyperNetworkは、プライマリ予測ネットワークのパラメーター(当社の場合LSTM)のパラメーターを予測する責任があります。
多項式および放射状の基底関数カーネルで構成される学習可能な適応可能なカーネルが、パフォーマンスを向上させるために組み込まれています。
提案されたハイパーエネルギーは、学生住宅、戸建住宅、電気自動車の充電付きの家、タウンハウスなど、多様な消費者について評価されました。
すべての消費者タイプにわたって、HyperEnergyは、LSTM、AttentionLSTM、Transformerなどの最先端のモデルを含む、他の10のテクニックを常に上回っていました。

要約(オリジナル)

Consumer energy forecasting is essential for managing energy consumption and planning, directly influencing operational efficiency, cost reduction, personalized energy management, and sustainability efforts. In recent years, deep learning techniques, especially LSTMs and transformers, have been greatly successful in the field of energy consumption forecasting. Nevertheless, these techniques have difficulties in capturing complex and sudden variations, and, moreover, they are commonly examined only on a specific type of consumer (e.g., only offices, only schools). Consequently, this paper proposes HyperEnergy, a consumer energy forecasting strategy that leverages hypernetworks for improved modeling of complex patterns applicable across a diversity of consumers. Hypernetwork is responsible for predicting the parameters of the primary prediction network, in our case LSTM. A learnable adaptable kernel, comprised of polynomial and radial basis function kernels, is incorporated to enhance performance. The proposed HyperEnergy was evaluated on diverse consumers including, student residences, detached homes, a home with electric vehicle charging, and a townhouse. Across all consumer types, HyperEnergy consistently outperformed 10 other techniques, including state-of-the-art models such as LSTM, AttentionLSTM, and transformer.

arxiv情報

著者 Muhammad Umair Danish,Katarina Grolinger
発行日 2025-02-07 17:25:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Leveraging Hypernetworks and Learnable Kernels for Consumer Energy Forecasting Across Diverse Consumer Types はコメントを受け付けていません

Pareto-Optimal Learning from Preferences with Hidden Context

要約

AIモデルが人間の価値と一致するようにすることは、安全性と機能に不可欠です。
人間のフィードバック(RLHF)からの強化学習は、人間の好みを活用して、この整合性を達成します。
ただし、好みが多様な集団から供給される場合、報酬のポイントの推定値は、最適ではないパフォーマンスをもたらすか、特定のグループにとって不公平になる可能性があります。
パレート最適な選好学習(POPL)を提案します。これは、潜在的なトレードオフを持つ目標として矛盾したグループの好みをフレーミングすることにより、優先データセットのパレート最適なポリシーを目指して、矛盾したグループの好みをフレーミングすることにより、多元的な整合性を可能にします。
POPLは、多様なソリューションとパレート最適なソリューションを選択する反復プロセスであるレキシカーゼ選択を利用しています。
私たちの理論的および経験的評価は、POPLが報酬機能とポリシーの学習セットのベースライン方法を上回り、グループ番号やメンバーシップラベルにアクセスすることなく異なるグループに効果的にケータリングすることを示しています。
Stateless Preference Learning Settion、Minigrid RLドメイン、Metaworld Roboticsベンチマーク、および大規模な言語モデル(LLM)の微調整でPOPLのパフォーマンスを検証します。
POPLは、グループ公平性の特定の概念を最適化する技術の基盤としても機能し、安全で公平なAIモデルの調整を確保できることを示しています。

要約(オリジナル)

Ensuring AI models align with human values is essential for their safety and functionality. Reinforcement learning from human feedback (RLHF) leverages human preferences to achieve this alignment. However, when preferences are sourced from diverse populations, point estimates of reward can result in suboptimal performance or be unfair to specific groups. We propose Pareto Optimal Preference Learning (POPL), which enables pluralistic alignment by framing discrepant group preferences as objectives with potential trade-offs, aiming for policies that are Pareto-optimal on the preference dataset. POPL utilizes lexicase selection, an iterative process that selects diverse and Pareto-optimal solutions. Our theoretical and empirical evaluations demonstrate that POPL surpasses baseline methods in learning sets of reward functions and policies, effectively catering to distinct groups without access to group numbers or membership labels. We verify the performance of POPL on a stateless preference learning setting, a Minigrid RL domain, Metaworld robotics benchmarks, as well as large language model (LLM) fine-tuning. We illustrate that POPL can also serve as a foundation for techniques optimizing specific notions of group fairness, ensuring safe and equitable AI model alignment.

arxiv情報

著者 Ryan Bahlous-Boldi,Li Ding,Lee Spector,Scott Niekum
発行日 2025-02-07 17:29:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Pareto-Optimal Learning from Preferences with Hidden Context はコメントを受け付けていません

ApplE: An Applied Ethics Ontology with Event Context

要約

応用倫理はほとんどのドメインで遍在しており、その哲学的性質のために多くの審議が必要です。
さまざまな見解は、倫理的なジレンマが解決するのが困難になるという矛盾する行動のコースにつながることがよくあります。
多くの要因がそのような決定に貢献していますが、主要な原動力を離散化して、指示的な答えを提供するために簡素化することができます。
知識の表現と推論は、抽象的な倫理概念をイベントのコンテキスト内で該当する原則に明示的に変換する方法を提供します。
これを達成するために、哲学的理論と出来事の文脈を捉えた応用倫理オントロジーであるAppleを提案し、行動の道徳を総合的に説明します。
開発プロセスは、オントロジー開発のための簡素化されたアジャイル方法論(SAMOD)の修正バージョンに準拠し、標準的な設計と出版の実践を利用しています。
Appleを使用して、オントロジーの社会的および科学的価値を示す生命倫理ドメインのユースケースをモデル化します。
存在論的推論と品質チェックとは別に、AppleはSAMODの3つの倍のテストプロセスを使用して評価されます。
Appleは公正な原則に従い、応用倫理学者やオントロジーエンジニアにとって実行可能なリソースになることを目指しています。

要約(オリジナル)

Applied ethics is ubiquitous in most domains, requiring much deliberation due to its philosophical nature. Varying views often lead to conflicting courses of action where ethical dilemmas become challenging to resolve. Although many factors contribute to such a decision, the major driving forces can be discretized and thus simplified to provide an indicative answer. Knowledge representation and reasoning offer a way to explicitly translate abstract ethical concepts into applicable principles within the context of an event. To achieve this, we propose ApplE, an Applied Ethics ontology that captures philosophical theory and event context to holistically describe the morality of an action. The development process adheres to a modified version of the Simplified Agile Methodology for Ontology Development (SAMOD) and utilizes standard design and publication practices. Using ApplE, we model a use case from the bioethics domain that demonstrates our ontology’s social and scientific value. Apart from the ontological reasoning and quality checks, ApplE is also evaluated using the three-fold testing process of SAMOD. ApplE follows FAIR principles and aims to be a viable resource for applied ethicists and ontology engineers.

arxiv情報

著者 Aisha Aijaz,Raghava Mutharaju,Manohar Kumar
発行日 2025-02-07 17:34:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | ApplE: An Applied Ethics Ontology with Event Context はコメントを受け付けていません

Flexible and Efficient Grammar-Constrained Decoding

要約

大規模な言語モデル(LLM)は、コードスニペットやフォーマットされたデータなど、正確な構文ルールに従う構造化された出力を生成するように求められることがよくあります。
文法制約のデコード(GCD)は、指定されたコンテキストフリーグラマー(CFG)に属さない出力につながるトークンをマスキングすることにより、LLM出力がそのようなルールと一致することを保証できます。
健全性を保証するために、GCDアルゴリズムは、特定のLLMサブワードトークネイザーが、特定のコンテキストフリーの文法で使用されているトークンとどのように整合し、この情報に基づいてトークンマスクを計算することができるかを計算する必要があります。
効率的にそうすることは挑戦的であり、既存のGCDアルゴリズムは一般的な文法を前処理するのに数十分かかります。
新しいGCDアルゴリズムと、オンラインマスク計算の最先端の効率を維持しながら、既存のアプローチよりも17.71倍のオフラインの前処理を提供する実装を提示します。

要約(オリジナル)

Large Language Models (LLMs) are often asked to generate structured outputs that obey precise syntactic rules, such as code snippets or formatted data. Grammar-constrained decoding (GCD) can guarantee that LLM outputs matches such rules by masking out tokens that will provably lead to outputs that do not belong to a specified context-free grammar (CFG). To guarantee soundness, GCD algorithms have to compute how a given LLM subword tokenizer can align with the tokens used by a given context-free grammar and compute token masks based on this information. Doing so efficiently is challenging and existing GCD algorithms require tens of minutes to preprocess common grammars. We present a new GCD algorithm together with an implementation that offers 17.71x faster offline preprocessing than existing approaches while preserving state-of-the-art efficiency in online mask computation.

arxiv情報

著者 Kanghee Park,Timothy Zhou,Loris D’Antoni
発行日 2025-02-07 17:35:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Flexible and Efficient Grammar-Constrained Decoding はコメントを受け付けていません