Adding Chocolate to Mint: Mitigating Metric Interference in Machine Translation

要約

自動メトリックがますます強くなり、広く採用されるにつれて、モデル開発中に意図せずに「メトリックを賭ける」リスクが上昇します。
この問題は、メトリック干渉(MINT)、つまり、モデルの調整と評価の両方に同じまたは関連するメトリックの使用によって引き起こされます。
Mintは、実務家をシステムのパフォーマンスについて過度に最適であるように誤っていることができます。システム出力が干渉メトリックの関数になると、推定された品質は人間の判断との相関を失います。
この作業では、トレーニングデータのフィルタリングと品質信号の解読というマシン翻訳関連のタスクにおけるMINTの2つの一般的なケースを分析します。
重要なことに、メトリックがチューニングには使用されていない評価に異なるが関連するメトリックを活用するという共通の戦略を強く最適化されていない場合でも、Mintはインスタンスレベルのメトリックスコアを強く歪めていることがわかります。
この問題に対処するために、MintJust、Mintの下でより信頼できる評価の方法を提案します。
WMT24 MT共有タスクテストセットでは、MintAddadjustは、特に高品質のシステムでは、ほとんどの言語ペアにわたる最先端のメトリックよりも正確に翻訳とシステムをランク付けします。
さらに、MintAddadjustは、主催者が使用するアンサンブルメソッドであるAutorankを上回ります。

要約(オリジナル)

As automatic metrics become increasingly stronger and widely adopted, the risk of unintentionally ‘gaming the metric’ during model development rises. This issue is caused by metric interference (MINT), i.e., the use of the same or related metrics for both model tuning and evaluation. MINT can misguide practitioners into being overoptimistic about the performance of their systems: as system outputs become a function of the interfering metric, their estimated quality loses correlation with human judgments. In this work, we analyze two common cases of MINT in machine translation-related tasks: filtering of training data, and decoding with quality signals. Importantly, we find that MINT strongly distorts instance-level metric scores, even when metrics are not directly optimized for-questioning the common strategy of leveraging a different, yet related metric for evaluation that is not used for tuning. To address this problem, we propose MINTADJUST, a method for more reliable evaluation under MINT. On the WMT24 MT shared task test set, MINTADJUST ranks translations and systems more accurately than state-of-the-art metrics across a majority of language pairs, especially for high-quality systems. Furthermore, MINTADJUST outperforms AUTORANK, the ensembling method used by the organizers.

arxiv情報

著者 José Pombal,Nuno M. Guerreiro,Ricardo Rei,André F. T. Martins
発行日 2025-06-18 14:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Adding Chocolate to Mint: Mitigating Metric Interference in Machine Translation はコメントを受け付けていません

SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling

要約

プロセスまたは段階的な監督は、大規模な言語モデル(LLM)の複雑なマルチステップ推論機能を進める上で重要な役割を果たしてきました。
ただし、効率的で高品質の自動化プロセス注釈は依然として重要な課題です。
これに対処するために、各ソリューションのステップを参照ソリューションで1つまたは複数のステップに整列させることにより、シングルパス、ステップごとの注釈を可能にする新しい構造化されたフレームワークである、参照ガイド付き評価(スペア)でシングルパスアノテーションを導入します。
参照ガイド付きステップレベルの評価により、数学的推論、マルチホップ構成質問応答、空間推論の3つのドメインにまたがる4つのデータセットでプロセス監督が効果的に促進されることを示します。
ベースラインと比較すると、予備が使用されると推論パフォーマンスが向上します。(1)推論時の貪欲なデコードのためのオフラインRLセットアップの微調整モデル、および(2)複数のLLM生成出力をランキング/集約するためのトレーニング報酬モデル。
さらに、Spareは、挑戦的な数学データセットで競争力のあるパフォーマンスを達成しながら、2.6倍の効率性を提供し、ツリー検索ベースの自動注釈と比較して実行時間の38%しか必要としません。
コードベースは、訓練されたスペアPRMモデルとともに、さらなる研究と再現性を促進するために公開されています。

要約(オリジナル)

Process or step-wise supervision has played a crucial role in advancing complex multi-step reasoning capabilities of Large Language Models (LLMs). However, efficient, high-quality automated process annotation remains a significant challenge. To address this, we introduce Single-Pass Annotation with Reference-Guided Evaluation (SPARE), a novel structured framework that enables single-pass, per-step annotation by aligning each solution step to one or multiple steps in a reference solution, accompanied by explicit reasoning for evaluation. We show that reference-guided step-level evaluation effectively facilitates process supervision on four datasets spanning three domains: mathematical reasoning, multi-hop compositional question answering, and spatial reasoning. We demonstrate that SPARE, when compared to baselines, improves reasoning performance when used for: (1) fine-tuning models in an offline RL setup for inference-time greedy-decoding, and (2) training reward models for ranking/aggregating multiple LLM-generated outputs. Additionally, SPARE achieves competitive performance on challenging mathematical datasets while offering 2.6 times greater efficiency, requiring only 38% of the runtime, compared to tree search-based automatic annotation. The codebase, along with a trained SPARE-PRM model, is publicly released to facilitate further research and reproducibility.

arxiv情報

著者 Md Imbesat Hassan Rizvi,Xiaodan Zhu,Iryna Gurevych
発行日 2025-06-18 14:37:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling はコメントを受け付けていません

KANITE: Kolmogorov-Arnold Networks for ITE estimation

要約

因果推論における複数の治療設定の下で、個々の治療効果(ITE)の推定のために、コルモゴロフ・アーノルドネットワーク(KANS)を活用するフレームワークであるKaniteを紹介します。
多層パーセプトロン(MLP)による線形重みを学習するのではなく、単変量の活性化関数を学習するためにKanのユニークな能力を利用することにより、ITEの推定値を改善します。
Kaniteフレームワークは、2つの重要なアーキテクチャで構成されています。1。統合確率メトリック(IPM)アーキテクチャ:これは、複数の治療にわたるITE推定に効果的に整合するために、特殊な方法でIPM損失を採用しています。
2。エントロピーバランス(EB)アーキテクチャ:これは、治療グループ間で共変量のバランスをとることに対応するエントロピーを最適化することによって学習されるサンプルに重みを使用します。
ベンチマークデータセットの広範な評価は、Kaniteが$ \ epsilon _ {\ text {pehe}} $および$ \ epsilon _ {\ text {ate}}} $ metricsの両方で最先端のアルゴリズムを上回ることを示しています。
私たちの実験は、因果推定の改善を達成する際のKaniteの利点を強調し、Kansが多様な用途エリア全体で因果的推論方法論を進める可能性を強調しています。

要約(オリジナル)

We introduce KANITE, a framework leveraging Kolmogorov-Arnold Networks (KANs) for Individual Treatment Effect (ITE) estimation under multiple treatments setting in causal inference. By utilizing KAN’s unique abilities to learn univariate activation functions as opposed to learning linear weights by Multi-Layer Perceptrons (MLPs), we improve the estimates of ITEs. The KANITE framework comprises two key architectures: 1.Integral Probability Metric (IPM) architecture: This employs an IPM loss in a specialized manner to effectively align towards ITE estimation across multiple treatments. 2. Entropy Balancing (EB) architecture: This uses weights for samples that are learned by optimizing entropy subject to balancing the covariates across treatment groups. Extensive evaluations on benchmark datasets demonstrate that KANITE outperforms state-of-the-art algorithms in both $\epsilon_{\text{PEHE}}$ and $\epsilon_{\text{ATE}}$ metrics. Our experiments highlight the advantages of KANITE in achieving improved causal estimates, emphasizing the potential of KANs to advance causal inference methodologies across diverse application areas.

arxiv情報

著者 Eshan Mehendale,Abhinav Thorat,Ravi Kolla,Niranjan Pedanekar
発行日 2025-06-18 14:44:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ME | KANITE: Kolmogorov-Arnold Networks for ITE estimation はコメントを受け付けていません

Over-squashing in Spatiotemporal Graph Neural Networks

要約

グラフニューラルネットワーク(GNNS)は、さまざまなドメインで顕著な成功を収めています。
ただし、最近の理論的進歩により、遠方のノードが情報を効果的に交換できないという、過剰なスケッシングなど、情報伝播機能の基本的な制限が特定されています。
静的なコンテキストで広範囲に研究されていますが、この問題は、グラフノードに関連付けられたシーケンスを処理する空間的GNNS(STGNNS)では未開拓のままです。
それにもかかわらず、時間的寸法は、伝播する必要がある情報を増やすことにより、この課題を増幅します。
この作業では、時空間的な過剰剥離問題を形式化し、静的ケースと比較してその明確な特性を示します。
私たちの分析は、直感的に、畳み込みのSTGNNが、時間内にむしろむしろ一時的に遠いポイントからの情報伝播を支持することを明らかにしています。
さらに、時間と空間または時間のスペース処理パラダイムのいずれかに従うアーキテクチャがこの現象によって等しく影響を受け、計算上効率の良い実装の理論的正当化を提供することを証明します。
合成および実世界のデータセットに関する調査結果を検証し、より効果的な設計のための運用上のダイナミクスと原則的なガイダンスについてより深い洞察を提供します。

要約(オリジナル)

Graph Neural Networks (GNNs) have achieved remarkable success across various domains. However, recent theoretical advances have identified fundamental limitations in their information propagation capabilities, such as over-squashing, where distant nodes fail to effectively exchange information. While extensively studied in static contexts, this issue remains unexplored in Spatiotemporal GNNs (STGNNs), which process sequences associated with graph nodes. Nonetheless, the temporal dimension amplifies this challenge by increasing the information that must be propagated. In this work, we formalize the spatiotemporal over-squashing problem and demonstrate its distinct characteristics compared to the static case. Our analysis reveals that counterintuitively, convolutional STGNNs favor information propagation from points temporally distant rather than close in time. Moreover, we prove that architectures that follow either time-and-space or time-then-space processing paradigms are equally affected by this phenomenon, providing theoretical justification for computationally efficient implementations. We validate our findings on synthetic and real-world datasets, providing deeper insights into their operational dynamics and principled guidance for more effective designs.

arxiv情報

著者 Ivan Marisca,Jacob Bamberger,Cesare Alippi,Michael M. Bronstein
発行日 2025-06-18 14:45:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Over-squashing in Spatiotemporal Graph Neural Networks はコメントを受け付けていません

M3-JEPA: Multimodal Alignment via Multi-gate MoE based on the Joint-Embedding Predictive Architecture

要約

現在のマルチモーダル学習戦略は、主に元のトークンスペースで最適化しています。
このようなフレームワークは、前提条件の言語モデルのバックボーンに簡単に組み込むことができますが、モダリティが崩壊する可能性があります。
このような問題を軽減するために、マルチモーダルタスクのジョイント埋め込み予測アーキテクチャ(JEPA)を活用して、予測因子によって入力埋め込みスペースに入力埋め込みスペースに変換し、潜在スペースでクロスモーダルアライメントを実施します。
この予測因子を専門家(MMOE)のマルチゲート混合物によって実装し、それに応じてフレームワークをM3-JEPAと呼びます。
ゲーティング関数は、モダリティ固有の情報と共有された情報を解き放ち、情報理論的最適性を導き出します。
フレームワークは、対照的な損失と正規化の両方の損失の両方で実装され、異なるマルチモーダルタスク間の代替勾配降下(AGD)によって解決されます。
徹底的に設計された実験により、M3-JEPAがさまざまなモダリティとタスクで最先端のパフォーマンスを取得し、目に見えないデータセットとドメインに一般化し、トレーニングと推論の両方で計算的に効率的であることを示します。
私たちの観察は、M3-JEPAがオープンな世界での自己監視学習の新しい基盤になる可能性があることを示唆しています。

要約(オリジナル)

Current multimodal learning strategies primarily optimize in the original token space. Such a framework is easy to incorporate with the backbone of pretrained language model, but might result in modality collapse. To alleviate such issues, we leverage the Joint-Embedding Predictive Architecture (JEPA) on the multimodal tasks, which converts the input embedding into the output embedding space by a predictor and then conducts the cross-modal alignment on the latent space. We implement this predictor by a Multi-Gate Mixture of Experts (MMoE) and name the framework as M3-JEPA, accordingly. The gating function disentangles the modality-specific and shared information and derives information-theoretic optimality. The framework is implemented with both contrastive and regularization loss, and solved by alternative gradient descent (AGD) between different multimodal tasks. By thoroughly designed experiments, we show that M3-JEPA can obtain state-of-the-art performance on different modalities and tasks, generalize to unseen datasets and domains, and is computationally efficient in both training and inference. Our observation suggests that M3-JEPA might become a new basis to self-supervised learning in the open world.

arxiv情報

著者 Hongyang Lei,Xiaolong Cheng,Qi Qin,Dan Wang,Kun Fan,Huazhen Huang,Qingqing Gu,Yetao Wu,Zhonglin Jiang,Yong Chen,Luo Ji
発行日 2025-06-18 14:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | M3-JEPA: Multimodal Alignment via Multi-gate MoE based on the Joint-Embedding Predictive Architecture はコメントを受け付けていません

Optimizing Web-Based AI Query Retrieval with GPT Integration in LangChain A CoT-Enhanced Prompt Engineering Approach

要約

大規模な言語モデルは、教育活動の他の側面の中でも、リモート学習学生のプロセスに根本的な変化をもたらしました。
リモート学習リソースの現在の検索には、複雑な学生クエリに関する包括的な情報を提供する文脈的意味の深さがありません。
この作業は、Langchainフレームワーク内にGPTベースのモデルを統合することにより、リモート学習検索を強化するための新しいアプローチを提案します。
このシステムは、COTの推論と迅速なエンジニアリングを使用して、より直感的で生産的な方法で達成しています。
私たちが提案するフレームワークは、各生徒のニーズに最適な包括的かつ文脈的に豊かな説明とリソースを返すために、検索結果の精度と関連性を高めることに大きな重点を置いています。
また、パラダイムLLMSに対するアプローチの有効性を評価し、ユーザーの満足度と学習成果の改善を報告します。

要約(オリジナル)

Large Language Models have brought a radical change in the process of remote learning students, among other aspects of educative activities. Current retrieval of remote learning resources lacks depth in contextual meaning that provides comprehensive information on complex student queries. This work proposes a novel approach to enhancing remote learning retrieval by integrating GPT-based models within the LangChain framework. We achieve this system in a more intuitive and productive manner using CoT reasoning and prompt engineering. The framework we propose puts much emphasis on increasing the precision and relevance of the retrieval results to return comprehensive and contextually enriched explanations and resources that best suit each student’s needs. We also assess the effectiveness of our approach against paradigmatic LLMs and report improvements in user satisfaction and learning outcomes.

arxiv情報

著者 Wenqi Guan,Yang Fang
発行日 2025-06-18 14:47:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Optimizing Web-Based AI Query Retrieval with GPT Integration in LangChain A CoT-Enhanced Prompt Engineering Approach はコメントを受け付けていません

RePCS: Diagnosing Data Memorization in LLM-Powered Retrieval-Augmented Generation

要約

検索された生成(RAG)は、現在の外部情報を使用して、大規模な言語モデル(LLM)応答を更新するための一般的な戦略となっています。
ただし、モデルは依然として記憶されたトレーニングデータに依存し、検索された証拠をバイパスし、汚染された出力を生成する場合があります。
モデルアクセスや再訓練を必要とせずにそのような動作を検出する診断方法である検索パス汚染スコアリング(REPCS)を導入します。
REPCSは、2つの推論パスを比較します。(i)クエリのみを使用したパラメトリックパス、および(ii)出力分布間のKullback-Leibler(kl)発散を計算することにより、クエリと取得コンテキストの両方を使用して検索されたパスを使用します。
低い発散は、検索されたコンテキストが最小限の影響を及ぼし、潜在的な暗記を示していることを示唆しています。
この手順はモデルに依存しており、勾配または内部の状態アクセスを必要とせず、追加のフォワードパスのみを追加します。
さらに、KLしきい値をユーザー定義の偽陽性および偽陰性率にリンクするPACスタイルの保証を導き出します。
プロンプトWNQAベンチマークでは、REPCSは0.918のROC-AUCを達成します。
この結果は、NVIDIA T4 GPUで4.7%未満の潜伏率を維持しながら、最強の事前の方法を6.5パーセントポイント上回ります。
REPCSは、軽量のブラックボックスセーフガードを提供して、RAGシステムが検索を有意に活用しているかどうかを確認し、安全性の高いアプリケーションで特に価値があります。

要約(オリジナル)

Retrieval-augmented generation (RAG) has become a common strategy for updating large language model (LLM) responses with current, external information. However, models may still rely on memorized training data, bypass the retrieved evidence, and produce contaminated outputs. We introduce Retrieval-Path Contamination Scoring (RePCS), a diagnostic method that detects such behavior without requiring model access or retraining. RePCS compares two inference paths: (i) a parametric path using only the query, and (ii) a retrieval-augmented path using both the query and retrieved context by computing the Kullback-Leibler (KL) divergence between their output distributions. A low divergence suggests that the retrieved context had minimal impact, indicating potential memorization. This procedure is model-agnostic, requires no gradient or internal state access, and adds only a single additional forward pass. We further derive PAC-style guarantees that link the KL threshold to user-defined false positive and false negative rates. On the Prompt-WNQA benchmark, RePCS achieves a ROC-AUC of 0.918. This result outperforms the strongest prior method by 6.5 percentage points while keeping latency overhead below 4.7% on an NVIDIA T4 GPU. RePCS offers a lightweight, black-box safeguard to verify whether a RAG system meaningfully leverages retrieval, making it especially valuable in safety-critical applications.

arxiv情報

著者 Le Vu Anh,Nguyen Viet Anh,Mehmet Dik,Luong Van Nghia
発行日 2025-06-18 14:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | RePCS: Diagnosing Data Memorization in LLM-Powered Retrieval-Augmented Generation はコメントを受け付けていません

RadioRAG: Online Retrieval-augmented Generation for Radiology Question Answering

要約

大規模な言語モデル(LLM)は、静的トレーニングデータセットに基づいて、時代遅れまたは不正確な情報を生成することがよくあります。
検索された生成(RAG)は、外部のデータソースを統合することにより、これを軽減します。
以前のRAGシステムは、柔軟性が限られている、事前に組み立てられた固定データベースを使用していましたが、Radiology RAG(Radiorag)を開発しました。
RAGを介して追加のオンライン情報にアクセスする場合とアクセスせずに放射線学固有の質問に答えるとき、さまざまなLLMの診断精度を評価します。
RSNAケースコレクションからの80の質問を、放射線科のサブ専門分野での80の質問と、参照標準回答、LLMS(GPT-3.5-Turbo、GPT-4、Mistral-8X7B、およびLLAMA3 [8Bおよび70B])を参照する参照標準回答(GPT-3.5-Turbo、GPT-4、Mixtral-8x7B)を使用して、ゼロシェーメントインコーティのレクリオアラグでラジオラグを使用せずに促されました。
リアルタイムのRadiopaedia。
精度が調査されました。
統計分析は、ブートストラップを使用して実行されました。
結果はさらに人間のパフォーマンスと比較されました。
Radioragは、ほとんどのLLMで診断精度を向上させ、相対的な精度は異なるLLMで最大54%増加します。
それは、特に乳房の画像診断と緊急放射線学において、放射線科の下位専門分野で回答する問題の非RAGモデルと人間の放射線科医に一致またはそれを超えました。
ただし、改善の程度はモデル間で異なりました。
GPT-3.5-TURBOおよびMIXTRAL-8X7B-INSTRUCT-V0.1は顕著な利益を見ましたが、Mistral-7B-Instruct-V0.2は改善を示しず、Radioragの有効性の変動性を強調しました。
LLMSは、トレーニングデータを超えてドメイン固有のデータへのアクセスを提供する場合に利益を得ます。
Radioragは、リアルタイムドメイン固有のデータを統合することにより、放射線学の質問におけるLLMの精度と事実性を改善する可能性を示しています。

要約(オリジナル)

Large language models (LLMs) often generate outdated or inaccurate information based on static training datasets. Retrieval-augmented generation (RAG) mitigates this by integrating outside data sources. While previous RAG systems used pre-assembled, fixed databases with limited flexibility, we have developed Radiology RAG (RadioRAG), an end-to-end framework that retrieves data from authoritative radiologic online sources in real-time. We evaluate the diagnostic accuracy of various LLMs when answering radiology-specific questions with and without access to additional online information via RAG. Using 80 questions from the RSNA Case Collection across radiologic subspecialties and 24 additional expert-curated questions with reference standard answers, LLMs (GPT-3.5-turbo, GPT-4, Mistral-7B, Mixtral-8x7B, and Llama3 [8B and 70B]) were prompted with and without RadioRAG in a zero-shot inference scenario RadioRAG retrieved context-specific information from Radiopaedia in real-time. Accuracy was investigated. Statistical analyses were performed using bootstrapping. The results were further compared with human performance. RadioRAG improved diagnostic accuracy across most LLMs, with relative accuracy increases ranging up to 54% for different LLMs. It matched or exceeded non-RAG models and the human radiologist in question answering across radiologic subspecialties, particularly in breast imaging and emergency radiology. However, the degree of improvement varied among models; GPT-3.5-turbo and Mixtral-8x7B-instruct-v0.1 saw notable gains, while Mistral-7B-instruct-v0.2 showed no improvement, highlighting variability in RadioRAG’s effectiveness. LLMs benefit when provided access to domain-specific data beyond their training data. RadioRAG shows potential to improve LLM accuracy and factuality in radiology question answering by integrating real-time domain-specific data.

arxiv情報

著者 Soroosh Tayebi Arasteh,Mahshad Lotfinia,Keno Bressem,Robert Siepmann,Lisa Adams,Dyke Ferber,Christiane Kuhl,Jakob Nikolas Kather,Sven Nebelung,Daniel Truhn
発行日 2025-06-18 14:52:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | RadioRAG: Online Retrieval-augmented Generation for Radiology Question Answering はコメントを受け付けていません

Pap2Pat: Benchmarking Outline-Guided Long-Text Patent Generation with Patent-Paper Pairs

要約

長くて非常に複雑な技術テキストを扱うことは、大規模な言語モデル(LLMS)にとって課題です。これは、特許制約などの高価で時間型のプロセスをサポートする可能性を展開する必要があります。
特許内では、説明は文書の90%以上を平均して構成します。
しかし、その自動生成は未解決のままです。
特許出願を起草する場合、特許弁護士は通常、発明報告書(IRS)を受け取りますが、これは通常機密であり、LLMがサポートする特許起動に関する研究を妨げます。
多くの場合、Prepublication Research PapersはIRSとして機能します。
この二重性を活用して、同じ発明を説明する1.8K特許紙のペアで構成される特許制約のためのオープンで現実的なベンチマークであるPap2PATを構築します。
複雑なLongdocument Patent Generationタスクに対処するために、発明の仕様として研究論文を使用して、チャンクベースのアウトラインガイド付き生成を提案します。
PAP2PATと人間のケーススタディを使用した当社の広範な評価は、LLMSが論文からの情報を効果的に活用できることを示していますが、それでも必要なレベルの詳細を提供するのに苦労しています。
微調整は、より多くの特許スタイルの言語につながりますが、より多くの幻覚にもつながります。
データとコードhttps://github.com/boschresearch/pap2patをリリースします。

要約(オリジナル)

Dealing with long and highly complex technical text is a challenge for Large Language Models (LLMs), which still have to unfold their potential in supporting expensive and timeintensive processes like patent drafting. Within patents, the description constitutes more than 90% of the document on average. Yet, its automatic generation remains understudied. When drafting patent applications, patent attorneys typically receive invention reports (IRs), which are usually confidential, hindering research on LLM-supported patent drafting. Often, prepublication research papers serve as IRs. We leverage this duality to build PAP2PAT, an open and realistic benchmark for patent drafting consisting of 1.8k patent-paper pairs describing the same inventions. To address the complex longdocument patent generation task, we propose chunk-based outline-guided generation using the research paper as invention specification. Our extensive evaluation using PAP2PAT and a human case study show that LLMs can effectively leverage information from the paper, but still struggle to provide the necessary level of detail. Fine-tuning leads to more patent-style language, but also to more hallucination. We release our data and code https://github.com/boschresearch/Pap2Pat.

arxiv情報

著者 Valentin Knappich,Simon Razniewski,Anna Hätty,Annemarie Friedrich
発行日 2025-06-18 15:08:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Pap2Pat: Benchmarking Outline-Guided Long-Text Patent Generation with Patent-Paper Pairs はコメントを受け付けていません

Capturing Polysemanticity with PRISM: A Multi-Concept Feature Description Framework

要約

自動化された解釈可能性の研究は、モデル行動の人間の理解を高めるために、ニューラルネットワーク機能にエンコードされた概念を特定することを目的としています。
現在の特徴の説明方法は、2つの重要な課題に直面しています。限られた堅牢性と、各ニューロンは、しばしばポリスマンであるという証拠が高まっているにもかかわらず、各ニューロンが単一の概念(単量体)のみをエンコードするという欠陥のある仮定です。
この仮定は、機能の説明の表現力を制限し、モデルの内部でエンコードされたすべての動作をキャプチャする能力を制限します。
これに対処するために、ニューラルネットワーク機能の固有の複雑さを捉える新しいフレームワークであるPolysemantic Feature Identification and Scoring Method(Prism)を紹介します。
機能ごとに単一の説明を割り当てる以前のアプローチとは異なり、Prismは、ポリマンティックおよびモノセマンティックの両方の機能に対して、より微妙な説明を提供します。
私たちは言語モデルにプリズムを適用し、既存の方法に対する広範なベンチマークを通じて、私たちのアプローチがより正確で忠実な特徴の説明を生成し、全体的な説明の品質(説明スコアを介して)と、多衰弱性が存在するとき(多分子性スコアを介して)異なる概念をキャプチャする機能の両方を改善することを示しています。

要約(オリジナル)

Automated interpretability research aims to identify concepts encoded in neural network features to enhance human understanding of model behavior. Current feature description methods face two critical challenges: limited robustness and the flawed assumption that each neuron encodes only a single concept (monosemanticity), despite growing evidence that neurons are often polysemantic. This assumption restricts the expressiveness of feature descriptions and limits their ability to capture the full range of behaviors encoded in model internals. To address this, we introduce Polysemantic FeatuRe Identification and Scoring Method (PRISM), a novel framework that captures the inherent complexity of neural network features. Unlike prior approaches that assign a single description per feature, PRISM provides more nuanced descriptions for both polysemantic and monosemantic features. We apply PRISM to language models and, through extensive benchmarking against existing methods, demonstrate that our approach produces more accurate and faithful feature descriptions, improving both overall description quality (via a description score) and the ability to capture distinct concepts when polysemanticity is present (via a polysemanticity score).

arxiv情報

著者 Laura Kopf,Nils Feldhus,Kirill Bykov,Philine Lou Bommer,Anna Hedström,Marina M. -C. Höhne,Oliver Eberle
発行日 2025-06-18 15:13:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Capturing Polysemanticity with PRISM: A Multi-Concept Feature Description Framework はコメントを受け付けていません