Coherent Local Explanations for Mathematical Optimization

要約

説明可能な人工知能方法の急増は、機械学習モデルの透明性と説明可能性を向上させようとしています。
同時に、数学的最適化で使用される複雑なアルゴリズムを介して行われた決定を説明するための需要が高まっています。
ただし、現在の説明方法では、根本的な最適化問題の構造を考慮しておらず、信頼できない結果につながります。
このニーズに応えて、数学的最適化(CLEMO)のコヒーレントな局所的な説明を紹介します。
CLEMOは、基礎となるモデル構造と一貫性のある最適化モデルの複数のコンポーネント、客観的値と決定変数の説明を提供します。
サンプリングベースの手順は、正確でヒューリスティックなソリューションアルゴリズムの動作に関する説明を提供できます。
CLEMOの有効性は、最短のパス問題、ナップサックの問題、および車両ルーティングの問題の実験によって説明されています。

要約(オリジナル)

The surge of explainable artificial intelligence methods seeks to enhance transparency and explainability in machine learning models. At the same time, there is a growing demand for explaining decisions taken through complex algorithms used in mathematical optimization. However, current explanation methods do not take into account the structure of the underlying optimization problem, leading to unreliable outcomes. In response to this need, we introduce Coherent Local Explanations for Mathematical Optimization (CLEMO). CLEMO provides explanations for multiple components of optimization models, the objective value and decision variables, which are coherent with the underlying model structure. Our sampling-based procedure can provide explanations for the behavior of exact and heuristic solution algorithms. The effectiveness of CLEMO is illustrated by experiments for the shortest path problem, the knapsack problem, and the vehicle routing problem.

arxiv情報

著者 Daan Otto,Jannis Kurtz,S. Ilker Birbil
発行日 2025-06-18 16:50:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Coherent Local Explanations for Mathematical Optimization はコメントを受け付けていません

Robust Physics-Informed Neural Network Approach for Estimating Heterogeneous Elastic Properties from Noisy Displacement Data

要約

騒々しい変位測定からの空間的に不均一な弾力性パラメーター、特にヤング率とポアソン比を正確に推定することは、逆弾性の問題では非常に困難なままです。
既存の逆推定技術は、不安定性、測定ノイズに対する感度と顕著な感受性、および絶対規模のヤング率の回復の困難によってしばしば制限されます。
この作業は、線形弾性物理学に基づいてノイズの多い変位データから弾性パラメーターの不均一な分布を堅牢に再構築するように特別に設計された、特別に設計された新しい逆弾性物理学に基づいたニューラルネットワーク(IE-PINN)を提示します。
IE-PINNは、変位フィールド、ひずみフィールド、および弾力性分布の個別のモデル化に特化した3つの異なるニューラルネットワークアーキテクチャを統合し、測定ノイズに対する安定性と精度を大幅に向上させます。
さらに、2相推定戦略が導入されています。第1相は、ヤング率とポアソン比の相対的な空間分布を回復し、第2相は、課された負荷境界条件を使用してヤング率の絶対スケールを調整します。
位置エンコーディング、正弦活性化関数、連続的な前削減プロトコルなどの追加の方法論的革新により、モデルのパフォーマンスと堅牢性がさらに向上します。
広範な数値実験は、IE-PINNが既存の方法で遭遇する重要な制限を効果的に克服し、深刻な騒音条件下でも正確な絶対規模の弾性推定を提供することを示しています。
この進歩は、臨床イメージングの診断と機械的特性評価の大きな可能性を秘めています。測定は通常、かなりの騒音に遭遇します。

要約(オリジナル)

Accurately estimating spatially heterogeneous elasticity parameters, particularly Young’s modulus and Poisson’s ratio, from noisy displacement measurements remains significantly challenging in inverse elasticity problems. Existing inverse estimation techniques are often limited by instability, pronounced sensitivity to measurement noise, and difficulty in recovering absolute-scale Young’s modulus. This work presents a novel Inverse Elasticity Physics-Informed Neural Network (IE-PINN) specifically designed to robustly reconstruct heterogeneous distributions of elasticity parameters from noisy displacement data based on linear elasticity physics. IE-PINN integrates three distinct neural network architectures dedicated to separately modeling displacement fields, strain fields, and elasticity distributions, thereby significantly enhancing stability and accuracy against measurement noise. Additionally, a two-phase estimation strategy is introduced: the first phase recovers relative spatial distributions of Young’s modulus and Poisson’s ratio, and the second phase calibrates the absolute scale of Young’s modulus using imposed loading boundary conditions. Additional methodological innovations, including positional encoding, sine activation functions, and a sequential pretraining protocol, further enhance the model’s performance and robustness. Extensive numerical experiments demonstrate that IE-PINN effectively overcomes critical limitations encountered by existing methods, delivering accurate absolute-scale elasticity estimations even under severe noise conditions. This advancement holds substantial potential for clinical imaging diagnostics and mechanical characterization, where measurements typically encounter substantial noise.

arxiv情報

著者 Tatthapong Srikitrungruang,Matthew Lemon,Sina Aghaee Dabaghan Fard,Jaesung Lee,Yuxiao Zhou
発行日 2025-06-18 17:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Robust Physics-Informed Neural Network Approach for Estimating Heterogeneous Elastic Properties from Noisy Displacement Data はコメントを受け付けていません

Revisiting Randomization in Greedy Model Search

要約

ランダムフォレストなどのアンサンブルでランダム化された推定器を組み合わせることは、現代のデータサイエンスの基本的な手法となっていますが、計算上高価になる可能性があります。
さらに、これが予測パフォーマンスを改善するメカニズムはよく理解されていません。
これらの問題は、特徴サブサンプリングによってランダム化された貪欲なフォワード選択推定器のアンサンブルを提案および分析することにより、スパースリニア回帰のコンテキストで対処します。各反復で、ランダムサブセット内から最適な機能が選択されます。
計算効率を大幅に改善する動的プログラミングに基づいて、新しい実装を設計します。
さらに、慎重な数値実験を介して、幅広い設定にわたって、ラッソや弾性ネットなどの一般的な方法を上回ることができることを示しています。
次に、ランダム化されたアンサンブルは収縮に類似しているという一般的な信念に反して、数値実験で、トレーニングエラーと自由度を同時に減らし、それによりベース推定器のバイアス分散トレードオフ曲線全体をシフトできることを示します。
この事実は、直交の特徴の設定で厳密に証明します。その場合、アンサンブル推定器は、ロジスティック重量の2パラメーターファミリーで通常の最小二乗係数を再実行し、それによりモデル検索スペースを拡大します。
これらの結果は、ランダムな森林の理解を高め、一般的に暗黙的な正則化が明示的な正則化よりも複雑な効果をもたらす可能性があることを示唆しています。

要約(オリジナル)

Combining randomized estimators in an ensemble, such as via random forests, has become a fundamental technique in modern data science, but can be computationally expensive. Furthermore, the mechanism by which this improves predictive performance is poorly understood. We address these issues in the context of sparse linear regression by proposing and analyzing an ensemble of greedy forward selection estimators that are randomized by feature subsampling — at each iteration, the best feature is selected from within a random subset. We design a novel implementation based on dynamic programming that greatly improves its computational efficiency. Furthermore, we show via careful numerical experiments that our method can outperform popular methods such as lasso and elastic net across a wide range of settings. Next, contrary to prevailing belief that randomized ensembling is analogous to shrinkage, we show via numerical experiments that it can simultaneously reduce training error and degrees of freedom, thereby shifting the entire bias-variance trade-off curve of the base estimator. We prove this fact rigorously in the setting of orthogonal features, in which case, the ensemble estimator rescales the ordinary least squares coefficients with a two-parameter family of logistic weights, thereby enlarging the model search space. These results enhance our understanding of random forests and suggest that implicit regularization in general may have more complicated effects than explicit regularization.

arxiv情報

著者 Xin Chen,Jason M. Klusowski,Yan Shuo Tan,Chang Yu
発行日 2025-06-18 17:13:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Revisiting Randomization in Greedy Model Search はコメントを受け付けていません

deepSURF: Detecting Memory Safety Vulnerabilities in Rust Through Fuzzing LLM-Augmented Harnesses

要約

Rustはデフォルトでメモリの安全性を保証しますが、危険なコードの使用も許可します。
残念ながら、錆のメモリバグを検出するための既存のツールは、通常、限られた検出機能を示し、錆固有のタイプを不十分に処理するか、手動介入に大きく依存しています。
これらの制限に対処するために、静的分析を大規模な言語モデル(LLM)に統合するツールであるDeepSurfを提示します。ハーネスの生成を誘導するハーネスの生成は、RUSTライブラリのメモリ安全脆弱性を効果的に特定し、特に安全でないコードをターゲットにしています。
DeepSurfは、カスタムタイプを使用して、必要な特性の調整された実装を生成することにより、ジェネリックを処理するための新しいアプローチを導入し、ファズ化されたライブラリ内のユーザー定義の動作をシミュレートできるようにします。
さらに、DeepSurfはLLMSを使用してファジングハーネスを動的に増強し、複雑なAPI相互作用の探索を促進し、メモリの安全性の脆弱性を暴露する可能性を大幅に増加させます。
27の実世界の錆びた木箱でDeepsurfを評価し、20の既知のメモリ安全性バグを再発見し、以前に未知の6つの脆弱性を明らかにし、最先端のツールに対する明確な改善を示しました。

要約(オリジナル)

Although Rust ensures memory safety by default, it also permits the use of unsafe code, which can introduce memory safety vulnerabilities if misused. Unfortunately, existing tools for detecting memory bugs in Rust typically exhibit limited detection capabilities, inadequately handle Rust-specific types, or rely heavily on manual intervention. To address these limitations, we present deepSURF, a tool that integrates static analysis with Large Language Model (LLM)-guided fuzzing harness generation to effectively identify memory safety vulnerabilities in Rust libraries, specifically targeting unsafe code. deepSURF introduces a novel approach for handling generics by substituting them with custom types and generating tailored implementations for the required traits, enabling the fuzzer to simulate user-defined behaviors within the fuzzed library. Additionally, deepSURF employs LLMs to augment fuzzing harnesses dynamically, facilitating exploration of complex API interactions and significantly increasing the likelihood of exposing memory safety vulnerabilities. We evaluated deepSURF on 27 real-world Rust crates, successfully rediscovering 20 known memory safety bugs and uncovering 6 previously unknown vulnerabilities, demonstrating clear improvements over state-of-the-art tools.

arxiv情報

著者 Georgios Androutsopoulos,Antonio Bianchi
発行日 2025-06-18 17:18:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.SE | deepSURF: Detecting Memory Safety Vulnerabilities in Rust Through Fuzzing LLM-Augmented Harnesses はコメントを受け付けていません

CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization

要約

オフライン強化学習(オフラインRL)アルゴリズムは、ポリシーの最適化中に暗黙的または明示的なポリシー制約を追加して機能の推定バイアスを減らすなど、分布シフトの問題に対処するための追加の制約またはペナルティ用語が必要です。
このペーパーでは、アドバンテージ加重回帰ファミリー(AWRS)の制限、つまり、データの腐敗、特に最適ではないオフラインデータの探求が不十分なため、保守的なポリシーを学習する可能性に焦点を当てています。
(1)KLの発散に基づいた理論的に最適なポリシーに貧弱な調査にどのように影響するか、および(2)そのような貧弱な探査が理論的に最適な政策の近似にどのように影響するかを研究します。
このような保守主義は、​​主に、貧弱な調査に対する政策最適化のための損失関数の感度と、オフラインデータセットでの貧弱な探査の割合によって引き起こされることを証明します。
この懸念に対処するために、腐敗回避アドバンテージ加重回帰(CAWR)を提案します。これには、ポリシーの最適化中に一連の堅牢な損失関数が組み込まれており、優位性に基づいた優先体験リプレイメソッドを除外して、不十分な調査を除外します。
D4RLベンチマークでの数値実験は、私たちの方法が最適ではないオフラインデータから優れたポリシーを学習し、ポリシーの最適化のパフォーマンスを大幅に向上させることを示しています。

要約(オリジナル)

Offline reinforcement learning (offline RL) algorithms often require additional constraints or penalty terms to address distribution shift issues, such as adding implicit or explicit policy constraints during policy optimization to reduce the estimation bias of functions. This paper focuses on a limitation of the Advantage-Weighted Regression family (AWRs), i.e., the potential for learning over-conservative policies due to data corruption, specifically the poor explorations in suboptimal offline data. We study it from two perspectives: (1) how poor explorations impact the theoretically optimal policy based on KL divergence, and (2) how such poor explorations affect the approximation of the theoretically optimal policy. We prove that such over-conservatism is mainly caused by the sensitivity of the loss function for policy optimization to poor explorations, and the proportion of poor explorations in offline datasets. To address this concern, we propose Corruption-Averse Advantage-Weighted Regression (CAWR), which incorporates a set of robust loss functions during policy optimization and an advantage-based prioritized experience replay method to filter out poor explorations. Numerical experiments on the D4RL benchmark show that our method can learn superior policies from suboptimal offline data, significantly enhancing the performance of policy optimization.

arxiv情報

著者 Ranting Hu
発行日 2025-06-18 17:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization はコメントを受け付けていません

On the Upper Bounds for the Matrix Spectral Norm

要約

マトリックスベクトル製品のみを使用して、マトリックスのスペクトル規範を推定する問題を検討します。
私たちは、標準に上限を提供し、その過小評価で確率的保証を導き出す新しいカウンターバランス推定器を提案します。
パワーメソッドなどの標準的なアプローチと比較して、提案された推定器は、合成および実世界の両方の設定で大幅に緊密な上限を生成します。
私たちの方法は、深い学習や逆の問題で発生するものなど、速い延期スペクトルを備えたマトリックスに特に効果的です。

要約(オリジナル)

We consider the problem of estimating the spectral norm of a matrix using only matrix-vector products. We propose a new Counterbalance estimator that provides upper bounds on the norm and derive probabilistic guarantees on its underestimation. Compared to standard approaches such as the power method, the proposed estimator produces significantly tighter upper bounds in both synthetic and real-world settings. Our method is especially effective for matrices with fast-decaying spectra, such as those arising in deep learning and inverse problems.

arxiv情報

著者 Alexey Naumov,Maxim Rakhuba,Denis Ryapolov,Sergey Samsonov
発行日 2025-06-18 17:39:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 65F35, cs.LG, cs.NA, math.NA, math.ST, stat.TH | On the Upper Bounds for the Matrix Spectral Norm はコメントを受け付けていません

A Data-Integrated Framework for Learning Fractional-Order Nonlinear Dynamical Systems

要約

このホワイトペーパーでは、離散時間と連続時間設定の両方で、分数の非線形システムのダイナミクスを学習するためのデータ統合フレームワークを紹介します。
提案されたフレームワークは、2つの主要なステップで構成されています。
最初のステップでは、入出力実験は、分数順序、ドリフトベクトルフィールド、制御ベクトルフィールドなど、システムのダイナミクスを学習するために必要なデータセットを生成するように設計されています。
2番目のステップでは、これらのデータセットは、分数システムのメモリ依存性特性とともに、システムの分数順序を推定するために使用されます。
その後、ドリフトおよび制御ベクトルフィールドは、直交基底関数を使用して再構築されます。
提案されたアプローチを検証するために、アルゴリズムは4つのベンチマーク分数システムに適用されます。
結果は、システムのダイナミクスを正確に学習する際の提案されたフレームワークの有効性を確認します。
最後に、同じデータセットを使用して、同等の整数順序モデルを学習します。
数値比較は、分数の次数モデルが長距離依存関係をよりよくキャプチャし、整数順序表現の制限を強調することを示しています。

要約(オリジナル)

This paper presents a data-integrated framework for learning the dynamics of fractional-order nonlinear systems in both discrete-time and continuous-time settings. The proposed framework consists of two main steps. In the first step, input-output experiments are designed to generate the necessary datasets for learning the system dynamics, including the fractional order, the drift vector field, and the control vector field. In the second step, these datasets, along with the memory-dependent property of fractional-order systems, are used to estimate the system’s fractional order. The drift and control vector fields are then reconstructed using orthonormal basis functions. To validate the proposed approach, the algorithm is applied to four benchmark fractional-order systems. The results confirm the effectiveness of the proposed framework in learning the system dynamics accurately. Finally, the same datasets are used to learn equivalent integer-order models. The numerical comparisons demonstrate that fractional-order models better capture long-range dependencies, highlighting the limitations of integer-order representations.

arxiv情報

著者 Bahram Yaghooti,Chengyu Li,Bruno Sinopoli
発行日 2025-06-18 17:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | A Data-Integrated Framework for Learning Fractional-Order Nonlinear Dynamical Systems はコメントを受け付けていません

SANSKRITI: A Comprehensive Benchmark for Evaluating Language Models’ Knowledge of Indian Culture

要約

言語モデル(LMS)は、現代のワークフローを形成する不可欠なツールですが、そのグローバルな有効性は、地元の社会文化的文脈を理解することに依存しています。
これに対処するために、言語モデルのインドの豊かな文化的多様性の理解を評価するために設計されたベンチマークであるSanskritiを紹介します。
28の州と8つの連合領土にまたがる21,853の細心の注意を払った質問回答ペアで構成されているサンスクリティは、インドの文化的知識をテストするための最大のデータセットです。
インド文化の16の重要な属性をカバーしています:儀式と儀式、歴史、観光、料理、ダンスと音楽、衣装、言語、芸術、フェスティバル、宗教、宗教、輸送、スポーツ、ナイトライフ、および個性は、インドの文化的タペストリの包括的な表現を提供します。
主要な大規模な言語モデル(LLMS)、インド言語モデル(ILMS)、および小言語モデル(SLM)でSanskritiを評価し、多くのモデルが地域固有のコンテキストで苦労していることで、文化的に微妙なクエリを処理する能力に大きな格差を明らかにします。
Sanskritiは、広範で文化的に豊かで多様なデータセットを提供することにより、LMSの文化的理解を評価および改善するための新しい基準を設定します。

要約(オリジナル)

Language Models (LMs) are indispensable tools shaping modern workflows, but their global effectiveness depends on understanding local socio-cultural contexts. To address this, we introduce SANSKRITI, a benchmark designed to evaluate language models’ comprehension of India’s rich cultural diversity. Comprising 21,853 meticulously curated question-answer pairs spanning 28 states and 8 union territories, SANSKRITI is the largest dataset for testing Indian cultural knowledge. It covers sixteen key attributes of Indian culture: rituals and ceremonies, history, tourism, cuisine, dance and music, costume, language, art, festivals, religion, medicine, transport, sports, nightlife, and personalities, providing a comprehensive representation of India’s cultural tapestry. We evaluate SANSKRITI on leading Large Language Models (LLMs), Indic Language Models (ILMs), and Small Language Models (SLMs), revealing significant disparities in their ability to handle culturally nuanced queries, with many models struggling in region-specific contexts. By offering an extensive, culturally rich, and diverse dataset, SANSKRITI sets a new standard for assessing and improving the cultural understanding of LMs.

arxiv情報

著者 Arijit Maji,Raghvendra Kumar,Akash Ghosh,Anushka,Sriparna Saha
発行日 2025-06-18 11:19:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SANSKRITI: A Comprehensive Benchmark for Evaluating Language Models’ Knowledge of Indian Culture はコメントを受け付けていません

COSMMIC: Comment-Sensitive Multimodal Multilingual Indian Corpus for Summarization and Headline Generation

要約

英語と中国語のコメントを認識したマルチモーダルと多言語の要約の進歩にもかかわらず、インドの言語の研究は限られたままです。
この調査では、9つの主要なインド言語を特徴とする先駆的なコメントに敏感なマルチモーダルで多言語データセットであるCosmmicを導入することにより、このギャップに対処します。
Cosmmicは、4,959の記事像のペアと24,484の読者のコメントで構成されており、すべての言語で根本的な要約が利用可能です。
私たちのアプローチは、読者の洞察とフィードバックを統合することにより、概要を強化します。
(1)記事テキストのみを使用して、(2)ユーザーのコメントを組み込んだ、(3)画像の使用、(4)テキスト、コメント、画像の組み合わせを組み込む:(1)4つの構成にわたって要約と見出しの生成を検討します。
データセットの有効性を評価するために、LLAMA3やGPT-4などの最先端の言語モデルを採用しています。
サポート的なコメントの識別、Indicbertを使用した専用のコメント分類器を使用したノイズの除外、多言語のクリップベースの分類器を使用した画像からの貴重な洞察を抽出するなど、さまざまなコンポーネントの組み合わせを評価するための包括的な研究を実施します。
これにより、自然言語生成(NLG)タスクの最も効果的な構成を決定するのに役立ちます。
マルチモーダル設定のテキストのみであるか、ユーザーのコメントを欠いている多くの既存のデータセットとは異なり、Cosmmicはテキスト、画像、ユーザーのフィードバックを一意に統合します。
この全体的なアプローチは、インド語のリソースのギャップを埋め、NLPの研究を進め、包括性を促進します。

要約(オリジナル)

Despite progress in comment-aware multimodal and multilingual summarization for English and Chinese, research in Indian languages remains limited. This study addresses this gap by introducing COSMMIC, a pioneering comment-sensitive multimodal, multilingual dataset featuring nine major Indian languages. COSMMIC comprises 4,959 article-image pairs and 24,484 reader comments, with ground-truth summaries available in all included languages. Our approach enhances summaries by integrating reader insights and feedback. We explore summarization and headline generation across four configurations: (1) using article text alone, (2) incorporating user comments, (3) utilizing images, and (4) combining text, comments, and images. To assess the dataset’s effectiveness, we employ state-of-the-art language models such as LLama3 and GPT-4. We conduct a comprehensive study to evaluate different component combinations, including identifying supportive comments, filtering out noise using a dedicated comment classifier using IndicBERT, and extracting valuable insights from images with a multilingual CLIP-based classifier. This helps determine the most effective configurations for natural language generation (NLG) tasks. Unlike many existing datasets that are either text-only or lack user comments in multimodal settings, COSMMIC uniquely integrates text, images, and user feedback. This holistic approach bridges gaps in Indian language resources, advancing NLP research and fostering inclusivity.

arxiv情報

著者 Raghvendra Kumar,S. A. Mohammed Salman,Aryan Sahu,Tridib Nandi,Pragathi Y. P.,Sriparna Saha,Jose G. Moreno
発行日 2025-06-18 11:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | COSMMIC: Comment-Sensitive Multimodal Multilingual Indian Corpus for Summarization and Headline Generation はコメントを受け付けていません

PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims

要約

特許請求は、発明の保護範囲を定義します。
請求に曖昧さがある場合、それは特許局によって拒否されます。
米国では、これは不定(35 U.S.C {\ s} 112(b))と呼ばれ、特許適用拒否の最も頻繁な理由の1つです。
特許明確性試験のための自動方法の開発は、特許の起草と検査をより効率的にする可能性がありますが、これまでに注釈付きのデータセットは公開されていません。
不明確性の理由で注釈が付けられた自然言語処理(NLP)に関連する特許出願(NLP)からの14K米国の特許請求の新しいデータセットであるPedantic(特許明確性試験コーパス)を紹介します。
USPTOからオフィスアクションドキュメントを取得し、大規模な言語モデル(LLM)を使用して不明確性の理由を抽出する完全に自動パイプラインを使用してPedanticを構築します。
人間の検証研究では、高品質の注釈を生成する際のパイプラインの精度を確認しています。
バイナリ分類メトリックを超えて洞察を得るために、すべてのモデル引用された理由の自由形式の推論をすべての審査官引用理由と比較するLLM-As-Judge評価を実装します。
QWEN 2.5 32Bおよび72Bに基づくLLMエージェントは、根本的な理由を正しく特定しているにもかかわらず、明確さ予測のロジスティック回帰ベースラインを上回るのに苦労していることを示しています。
Pedanticは、特許AIの研究者に貴重なリソースを提供し、高度な検査モデルの開発を可能にします。
データセットとコードを公開します。

要約(オリジナル)

Patent claims define the scope of protection for an invention. If there are ambiguities in a claim, it is rejected by the patent office. In the US, this is referred to as indefiniteness (35 U.S.C {\S} 112(b)) and is among the most frequent reasons for patent application rejection. The development of automatic methods for patent definiteness examination has the potential to make patent drafting and examination more efficient, but no annotated dataset has been published to date. We introduce PEDANTIC (Patent Definiteness Examination Corpus), a novel dataset of 14k US patent claims from patent applications relating to Natural Language Processing (NLP), annotated with reasons for indefiniteness. We construct PEDANTIC using a fully automatic pipeline that retrieves office action documents from the USPTO and uses Large Language Models (LLMs) to extract the reasons for indefiniteness. A human validation study confirms the pipeline’s accuracy in generating high-quality annotations. To gain insight beyond binary classification metrics, we implement an LLM-as-Judge evaluation that compares the free-form reasoning of every model-cited reason with every examiner-cited reason. We show that LLM agents based on Qwen 2.5 32B and 72B struggle to outperform logistic regression baselines on definiteness prediction, even though they often correctly identify the underlying reasons. PEDANTIC provides a valuable resource for patent AI researchers, enabling the development of advanced examination models. We will publicly release the dataset and code.

arxiv情報

著者 Valentin Knappich,Annemarie Friedrich,Anna Hätty,Simon Razniewski
発行日 2025-06-18 12:03:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims はコメントを受け付けていません