NLI under the Microscope: What Atomic Hypothesis Decomposition Reveals

要約

原子命題へのテキストの分解は、入力および出力テキストの詳細な検査を可能にする柔軟なフレームワークです。
2つの自然言語推論タスク、従来のNLIと不使用のNLIで仮説の原子分解を使用して、原子サブ問題、または全体的な問題を解決するときにモデルの重量を量る必要がある巧妙な推論を形成します。
これらのアトミックサブプラームは、NLIの構造と不使用の推論の両方をさらに理解し、モデルの一貫性とさまざまな推論の理解を調べ、ベンチマークデータセットの例の多様性を測定するためのツールとして機能します。
我々の結果は、LLMSが原子NLIの論理的一貫性と不可能なNLIのサブ問題に依然として苦労していることを示しています。
最後に、不使用のNLI例の重要な原子サブ問題、またはラベル全体に最も貢献しているものを特定し、モデルの推論的一貫性を測定する方法を提案します。これは、モデルが異なるコンテキストで同じ事実について一貫して正しいまたは正しく正しいまたは誤った予測を行うように設計されたメトリックです。

要約(オリジナル)

Decomposition of text into atomic propositions is a flexible framework allowing for the closer inspection of input and output text. We use atomic decomposition of hypotheses in two natural language reasoning tasks, traditional NLI and defeasible NLI, to form atomic sub-problems, or granular inferences that models must weigh when solving the overall problem. These atomic sub-problems serve as a tool to further understand the structure of both NLI and defeasible reasoning, probe a model’s consistency and understanding of different inferences, and measure the diversity of examples in benchmark datasets. Our results indicate that LLMs still struggle with logical consistency on atomic NLI and defeasible NLI sub-problems. Lastly, we identify critical atomic sub-problems of defeasible NLI examples, or those that most contribute to the overall label, and propose a method to measure the inferential consistency of a model, a metric designed to capture the degree to which a model makes consistently correct or incorrect predictions about the same fact under different contexts.

arxiv情報

著者 Neha Srikanth,Rachel Rudinger
発行日 2025-03-07 15:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NLI under the Microscope: What Atomic Hypothesis Decomposition Reveals はコメントを受け付けていません

Statistical Guarantees of Correctness Coverage for Medical Multiple-Choice Question Answering

要約

大規模な言語モデル(LLM)は、実際の質問回答(QA)アプリケーションでますます展開されています。
ただし、LLMは幻覚と非事実情報を生成することが証明されており、ハイステークスの医療タスクでの信頼性を損ないます。
コンフォーマル予測(CP)は、モデルに依存して分布できないことがよく知られており、分類タスクで統計的に厳密な予測セットを作成します。
この作業では、内部モデル情報へのアクセスがないと仮定して、非信頼性スコアと自己整合性理論に基づいた正しいオプションの頻度スコアと相関することにより、CPフレームワークを初めて医療複数選択質問(MCQA)タスクに適応させます。
適応されたCPフレームワークは(MIS)カバレッジ率のみを制御できることを考慮して、リスク制御フレームワークを採用しています。リスク制御フレームワークは、単調に減少する損失関数を考案することによりタスク固有のメトリックを管理できます。
4つの「オフシェルフ」LLMSを使用して、3つの一般的なMCQAデータセットでフレームワークを評価します。
経験的結果は、テストセットでユーザー指定の平均(または限界)エラー率を達成することを示しています。
さらに、リスクレベルが増加すると、テストセットの平均予測セットサイズ(APSS)が減少し、LLMSの不確実性の有望な評価メトリックを締めくくることがわかります。

要約(オリジナル)

Large language models (LLMs) are increasingly deployed in real-world question-answering (QA) applications. However, LLMs have been proven to generate hallucinations and nonfactual information, undermining their trustworthiness in high-stakes medical tasks. Conformal prediction (CP) is well-known to be model-agnostic and distribution-free, which creates statistically rigorous prediction sets in classification tasks. In this work, we for the first time adapt the CP framework to medical multiple-choice question-answering (MCQA) tasks, by correlating the nonconformity score with the frequency score of correct options grounded in self-consistency theory, assuming no access to internal model information. Considering that the adapted CP framework can only control the (mis)coverage rate, we employ a risk control framework, which can manage task-specific metrics by devising a monotonically decreasing loss function. We evaluate our framework on 3 popular medical MCQA datasets utilizing 4 “off-the-shelf” LLMs. Empirical results demonstrate that we achieve user-specified average (or marginal) error rates on the test set. Furthermore, we observe that the average prediction set size (APSS) on the test set decreases as the risk level increases, which concludes a promising evaluation metric for the uncertainty of LLMs.

arxiv情報

著者 Yusong Ke
発行日 2025-03-07 15:22:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Statistical Guarantees of Correctness Coverage for Medical Multiple-Choice Question Answering はコメントを受け付けていません

Bootstrapping Language Models with DPO Implicit Rewards

要約

大規模な言語モデル(LLMS)における人間のアライメントは、研究の活発な分野です。
最近の画期的な作業である直接選好最適化(DPO)は、RLHFの報酬学習段階をバイパスすることにより、人間のフィードバック(RLHF)からの強化学習における過去の作業からのプロセスを大幅に簡素化しました。
DPOは、トレーニング後、暗黙の報酬モデルを提供します。
この作業では、この暗黙の報酬モデル自体をブートストラップファッションで使用してLLMをさらに整列させることができるという斬新な観察を行います。
私たちのアプローチは、現在のLLMからの報酬を使用して優先データセットを構築することです。これは、後続のDPOラウンドで使用されます。
アプローチをさらに改善するために、2つの改良を組み込みます。1)長さの正規化された報酬の形成は、優先データセットの長さを廃止するようにします。
2)優先データセットの品質を向上させるためのリプレイを経験します。
DPO暗黙の報酬(DICE)との自己調整と名付けられた私たちのアプローチは、アラインメントの大幅な改善を示しています。
これは、外部フィードバックに依存することなく、試したすべての異なるベースモデルについて、Alpacaeval 2の長さの制御された勝利率で8 $ \\%$を超える増加を達成します。
私たちのコードは、https://github.com/sail-sg/diceで入手できます。

要約(オリジナル)

Human alignment in large language models (LLMs) is an active area of research. A recent groundbreaking work, direct preference optimization (DPO), has greatly simplified the process from past work in reinforcement learning from human feedback (RLHF) by bypassing the reward learning stage in RLHF. DPO, after training, provides an implicit reward model. In this work, we make a novel observation that this implicit reward model can by itself be used in a bootstrapping fashion to further align the LLM. Our approach is to use the rewards from a current LLM to construct a preference dataset, which is then used in subsequent DPO rounds. We incorporate two refinements to further improve our approach: 1) length-regularized reward shaping to make the preference dataset length-unbiased; 2) experience replay to enhance the quality of the preference dataset. Our approach, named self-alignment with DPO ImpliCit rEwards (DICE), shows great improvements in alignment. It achieves an increase of more than 8$\\%$ in lengthcontrolled win rate on AlpacaEval 2 for all the different base models that we tried, without relying on external feedback. Our code is available at https://github.com/sail-sg/dice.

arxiv情報

著者 Changyu Chen,Zichen Liu,Chao Du,Tianyu Pang,Qian Liu,Arunesh Sinha,Pradeep Varakantham,Min Lin
発行日 2025-03-07 15:26:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Bootstrapping Language Models with DPO Implicit Rewards はコメントを受け付けていません

LiGT: Layout-infused Generative Transformer for Visual Question Answering on Vietnamese Receipts

要約

ドキュメント視覚的な質問応答(Document VQA)は、マルチモーダルシステムに挑戦し、テキスト、レイアウト、視覚的モダリティを総合的に処理して適切な回答を提供します。
ドキュメントVQAは、ドキュメントの量が増え、デジタル化に対する需要が高いため、近年人気が高まっています。
それにもかかわらず、ドキュメントVQAデータセットのほとんどは、英語などの高リソース言語で開発されています。
このホワイトペーパーでは、ReceipTVQA(\ textBf {reception} \ textbf {v} isual \ textbf {q} uestion \ uestbf {a} nswering)を提示します。
データセットには、\ textbf {9,000+}領収書画像と\ textbf {60,000+}手動で注釈付きの質問回答ペアが含まれます。
私たちの研究に加えて、ligt(\ textbf {l} ayout- \ textbf {i} nfududude \ textbf {g} enerative \ textbf {t} ransformer)、レイアウトアウェアエンコーダーデコーダーアーキテクチャである、レイアウトアウェアエンコーダーデコーダーアーキテクチャである、レイアウトアウェアエンコーダーデコダーアーキテクチャであるLayout-Awareエンコーダーデコダーアーキテクチャを紹介します。
モジュール。
RecepteVQAの実験は、私たちのアーキテクチャが有望なパフォーマンスをもたらし、優れたベースラインと比較して競争結果を達成したことを示しています。
さらに、実験結果の分析を通して、エンコーダーのみのモデルアーキテクチャを使用すると、回答を生成できるアーキテクチャと比較してかなりの欠点があることがわかりました。
また、言語モデルからの意味的理解の重要な役割にもかかわらず、データセットに取り組むために複数のモダリティを組み合わせる必要があることも観察しました。
私たちの仕事が、ベトナム文書VQAの将来の発展を奨励し、促進し、ベトナム語の多様なマルチモーダル研究コミュニティに貢献することを願っています。

要約(オリジナル)

Document Visual Question Answering (Document VQA) challenges multimodal systems to holistically handle textual, layout, and visual modalities to provide appropriate answers. Document VQA has gained popularity in recent years due to the increasing amount of documents and the high demand for digitization. Nonetheless, most of document VQA datasets are developed in high-resource languages such as English. In this paper, we present ReceiptVQA (\textbf{Receipt} \textbf{V}isual \textbf{Q}uestion \textbf{A}nswering), the initial large-scale document VQA dataset in Vietnamese dedicated to receipts, a document kind with high commercial potentials. The dataset encompasses \textbf{9,000+} receipt images and \textbf{60,000+} manually annotated question-answer pairs. In addition to our study, we introduce LiGT (\textbf{L}ayout-\textbf{i}nfused \textbf{G}enerative \textbf{T}ransformer), a layout-aware encoder-decoder architecture designed to leverage embedding layers of language models to operate layout embeddings, minimizing the use of additional neural modules. Experiments on ReceiptVQA show that our architecture yielded promising performance, achieving competitive results compared with outstanding baselines. Furthermore, throughout analyzing experimental results, we found evident patterns that employing encoder-only model architectures has considerable disadvantages in comparison to architectures that can generate answers. We also observed that it is necessary to combine multiple modalities to tackle our dataset, despite the critical role of semantic understanding from language models. We hope that our work will encourage and facilitate future development in Vietnamese document VQA, contributing to a diverse multimodal research community in the Vietnamese language.

arxiv情報

著者 Thanh-Phong Le,Trung Le Chi Phan,Nghia Hieu Nguyen,Kiet Van Nguyen
発行日 2025-03-07 16:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LiGT: Layout-infused Generative Transformer for Visual Question Answering on Vietnamese Receipts はコメントを受け付けていません

SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It)

要約

LLMがプライバシーの漏れの測定から著作権違反の検出まで、トレーニングデータとこれが何を意味するかを記憶するかどうかは、急速に成長する研究分野になりました。
過去数か月で、LLMに対してメンバーシップ推論攻撃(MIA)を実行するための10を超える新しい方法が提案されています。
固定されているがランダム化された記録またはモデルに依存している従来のMIAに反して、これらの方法は主に訓練され、事後収集されたデータセットでテストされています。
MIAの評価に使用されるメンバーと非会員のセットは、モデルのリリース後に情報に基づいた推測を使用して構築されます。
このランダム化の欠如は、メンバーと非会員の間の分布シフトの懸念を引き起こします。
この作業では、最初にLLMSに対するMIAに関する文献を広範囲にレビューし、ほとんどの作業は事後のセットアップで評価されたシーケンスレベルのMIAに焦点を当てているが、さまざまなターゲットモデル、動機、関心のある単位が考慮されることを示しています。
次に、単語分類器のモデルレスバッグを使用して文献に使用される6つのデータセットに存在する分布シフトを定量化し、事後に構築されたすべてのデータセットが強力な分布シフトに苦しんでいることを示します。
これらのシフトは、実際のシナリオで強く記憶するLLMの主張を無効にし、潜在的に、これらのデータセットに基づいた最近の論文の方法論的貢献も潜在的に貢献します。
しかし、すべての希望は失われないかもしれません。
LLMSに対してMIAを適切に評価するための重要な考慮事項を導入し、潜在的な前進方法について説明します。ランダム化テストスプリット、無作為化(一意の)配列の注入、無作為化微調整、およびいくつかの事後制御方法。
各オプションにはその利点と制限が付いていますが、MIAの開発を導き、LLMの暗記を研究するための堅実な根拠をまとめて提供していると考えています。
締めくくり、LLMに対するベンチマークシーケンスレベルおよびドキュメントレベルのMIAに対する推奨アプローチの概要を説明します。

要約(オリジナル)

Whether LLMs memorize their training data and what this means, from measuring privacy leakage to detecting copyright violations, has become a rapidly growing area of research. In the last few months, more than 10 new methods have been proposed to perform Membership Inference Attacks (MIAs) against LLMs. Contrary to traditional MIAs which rely on fixed-but randomized-records or models, these methods are mostly trained and tested on datasets collected post-hoc. Sets of members and non-members, used to evaluate the MIA, are constructed using informed guesses after the release of a model. This lack of randomization raises concerns of a distribution shift between members and non-members. In this work, we first extensively review the literature on MIAs against LLMs and show that, while most work focuses on sequence-level MIAs evaluated in post-hoc setups, a range of target models, motivations and units of interest are considered. We then quantify distribution shifts present in 6 datasets used in the literature using a model-less bag of word classifier and show that all datasets constructed post-hoc suffer from strong distribution shifts. These shifts invalidate the claims of LLMs memorizing strongly in real-world scenarios and, potentially, also the methodological contributions of the recent papers based on these datasets. Yet, all hope might not be lost. We introduce important considerations to properly evaluate MIAs against LLMs and discuss, in turn, potential ways forwards: randomized test splits, injections of randomized (unique) sequences, randomized fine-tuning, and several post-hoc control methods. While each option comes with its advantages and limitations, we believe they collectively provide solid grounds to guide MIA development and study LLM memorization. We conclude with an overview of recommended approaches to benchmark sequence-level and document-level MIAs against LLMs.

arxiv情報

著者 Matthieu Meeus,Igor Shilov,Shubham Jain,Manuel Faysse,Marek Rei,Yves-Alexandre de Montjoye
発行日 2025-03-07 16:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It) はコメントを受け付けていません

Evaluating open-source Large Language Models for automated fact-checking

要約

オンラインの誤った情報の増加の増加により、自動化された事実確認ソリューションの需要が高まりました。
大規模な言語モデル(LLM)は、このタスクを支援するための潜在的なツールとして浮上していますが、それらの有効性は不確実なままです。
この研究では、さまざまなオープンソースLLMの事実確認能力を評価し、異なるレベルのコンテキスト情報でクレームを評価する能力に焦点を当てています。
(1)LLMSがクレームと事実確認記事の間の意味関係を特定できるかどうか、(2)関連する事実確認記事を与えられたときの主張を検証する際のモデルの精度を評価できるかどうか、およびGoogleやWikiediaなどの外部知識源からのデータを活用する際のLLMSのファクトチェックアビリティをテストすることができるかどうかを評価します。
我々の結果は、LLMSがクレームアーティクルの接続を特定し、事実確認されたストーリーを検証するのにうまく機能しますが、ロベルタなどの伝統的な微調整されたモデルによってアウトパフォームされている事実のニュースを確認するのに苦労しています。
さらに、外部の知識の導入は、LLMSのパフォーマンスを大幅に向上させることはなく、よりカスタマイズされたアプローチを必要とします。
私たちの調査結果は、自動化されたファクトチェックにおけるLLMの潜在能力と制限の両方を強調し、人間のファクトチェッカーを確実に置き換える前に、さらなる改良の必要性を強調しています。

要約(オリジナル)

The increasing prevalence of online misinformation has heightened the demand for automated fact-checking solutions. Large Language Models (LLMs) have emerged as potential tools for assisting in this task, but their effectiveness remains uncertain. This study evaluates the fact-checking capabilities of various open-source LLMs, focusing on their ability to assess claims with different levels of contextual information. We conduct three key experiments: (1) evaluating whether LLMs can identify the semantic relationship between a claim and a fact-checking article, (2) assessing models’ accuracy in verifying claims when given a related fact-checking article, and (3) testing LLMs’ fact-checking abilities when leveraging data from external knowledge sources such as Google and Wikipedia. Our results indicate that LLMs perform well in identifying claim-article connections and verifying fact-checked stories but struggle with confirming factual news, where they are outperformed by traditional fine-tuned models such as RoBERTa. Additionally, the introduction of external knowledge does not significantly enhance LLMs’ performance, calling for more tailored approaches. Our findings highlight both the potential and limitations of LLMs in automated fact-checking, emphasizing the need for further refinements before they can reliably replace human fact-checkers.

arxiv情報

著者 Nicolo’ Fontana,Francesco Corso,Enrico Zuccolotto,Francesco Pierri
発行日 2025-03-07 16:45:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Evaluating open-source Large Language Models for automated fact-checking はコメントを受け付けていません

Correcting Annotator Bias in Training Data: Population-Aligned Instance Replication (PAIR)

要約

クラウドソーシングされたラベルで訓練されたモデルは、アノテーターとして働く人々は人口を表していないため、より広い人口見解を反映していない可能性があります。
人口に合ったインスタンス複製(ペア)を提案します。これは、非代表的なアノテータープールによって引き起こされるバイアスに対処する方法です。
攻撃的な言語とヘイトスピーチのシミュレーション調査を使用して、異なるラベル付け傾向を持つ2種類のアノテーターを作成し、タイプの割合がさまざまなデータセットを生成します。
不均衡なアノテータープールでトレーニングされたモデルは、代表的なデータでトレーニングされたものと比較して、キャリブレーションが不十分であることを観察します。
人口の割合に合わせて過小評価されているアノテーターグループからラベルを複製することにより、ペアは追加の注釈を収集せずにバイアスを減らします。
これらの結果は、調査研究の統計的手法がモデルのパフォーマンスを改善できることを示唆しています。
トレーニングデータとモデルのパフォーマンスの代表性を改善するための実用的な推奨事項で締めくくります。

要約(オリジナル)

Models trained on crowdsourced labels may not reflect broader population views, because those who work as annotators do not represent the population. We propose Population-Aligned Instance Replication (PAIR), a method to address bias caused by non-representative annotator pools. Using a simulation study of offensive language and hate speech, we create two types of annotators with different labeling tendencies and generate datasets with varying proportions of the types. We observe that models trained on unbalanced annotator pools show poor calibration compared to those trained on representative data. By duplicating labels from underrepresented annotator groups to match population proportions, PAIR reduces bias without collecting additional annotations. These results suggest that statistical techniques from survey research can improve model performance. We conclude with practical recommendations for improving the representativity of training data and model performance.

arxiv情報

著者 Stephanie Eckman,Bolei Ma,Christoph Kern,Rob Chew,Barbara Plank,Frauke Kreuter
発行日 2025-03-07 17:32:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, stat.ME | Correcting Annotator Bias in Training Data: Population-Aligned Instance Replication (PAIR) はコメントを受け付けていません

Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes

要約

データ管理コミュニティの長年の目標は、人間の努力やドメイン固有のカスタマイズなしで、半構造化されたドキュメントと出力クエリテーブルを摂取する一般的な自動化されたシステムを開発することです。
多様な潜在的なドキュメントを考えると、最先端のシステムは、仮定を簡素化し、ドメイン固有のトレーニングを使用します。
この作業では、大規模な言語モデル(LLM)を使用して一般性を維持できるかどうかを尋ねます。
幅広いデータで事前に処理されているLLMは、自然言語タスクの説明を単純に条件付けした多様なダウンストリームタスクを実行できます。
LLMSを搭載したシンプルなプロトタイプシステムであるEvaPorateを提案および評価します。
このシステムを実装するための2つの根本的に異なる戦略を特定します。LLMにドキュメントから値を直接抽出するように促すか、LLMに抽出を実行するコードを合成するように促します。
私たちの評価は、これら2つのアプローチ間のコスト品質のトレードオフを示しています。
コード合成は安価ですが、各ドキュメントをLLMで直接処理するよりもはるかに正確ではありません。
低コストを維持しながら品質を向上させるために、拡張コード合成の実装である蒸発コード+を提案します。これは、直接抽出よりも優れた品質を達成します。
私たちの重要な洞察は、多くの候補機能を生成し、弱い監督を使用して抽出をアンサンブルすることです。
EvaPorate-Code+は、最先端のシステムを上回るだけでなく、LLMを使用してドキュメントを越えてサブリンパスを使用してそうします。
これは、LLMが処理するために必要なトークンの数の110倍の削減に相当し、それぞれ10Kドキュメントの16の実際の評価設定で平均化されました。

要約(オリジナル)

A long standing goal of the data management community is to develop general, automated systems that ingest semi-structured documents and output queryable tables without human effort or domain specific customization. Given the sheer variety of potential documents, state-of-the art systems make simplifying assumptions and use domain specific training. In this work, we ask whether we can maintain generality by using large language models (LLMs). LLMs, which are pretrained on broad data, can perform diverse downstream tasks simply conditioned on natural language task descriptions. We propose and evaluate EVAPORATE, a simple, prototype system powered by LLMs. We identify two fundamentally different strategies for implementing this system: prompt the LLM to directly extract values from documents or prompt the LLM to synthesize code that performs the extraction. Our evaluations show a cost-quality tradeoff between these two approaches. Code synthesis is cheap, but far less accurate than directly processing each document with the LLM. To improve quality while maintaining low cost, we propose an extended code synthesis implementation, EVAPORATE-CODE+, which achieves better quality than direct extraction. Our key insight is to generate many candidate functions and ensemble their extractions using weak supervision. EVAPORATE-CODE+ not only outperforms the state-of-the art systems, but does so using a sublinear pass over the documents with the LLM. This equates to a 110x reduction in the number of tokens the LLM needs to process, averaged across 16 real-world evaluation settings of 10k documents each.

arxiv情報

著者 Simran Arora,Brandon Yang,Sabri Eyuboglu,Avanika Narayan,Andrew Hojel,Immanuel Trummer,Christopher Ré
発行日 2025-03-07 17:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes はコメントを受け付けていません

DeltaProduct: Increasing the Expressivity of DeltaNet Through Products of Householders

要約

線形再発性ニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスの競争力のある代替品として浮上しており、効率的なトレーニングと線形時間推論を提供しています。
ただし、既存のアーキテクチャは、表現力と効率性の基本的なトレードオフに直面しており、国家移動マトリックスの構造によって決定されます。
Mamba、GLA、またはMLSTMなどのアーキテクチャで使用される斜めのマトリックスは、ランタイムが速い速いことを生み出しますが、表現率は厳しくありません。
これに対処するために、(ゲート)デルタネットやRWKVV7などの最近のアーキテクチャは、対角線プラスランク1構造を採用し、同時のトークンチャネル混合を可能にし、トレーニング効率がわずかに低下するだけで表現率の制限を克服します。
デルタネットの再発の解釈に基づいて、連想リコール損失でトークンごとにオンライン勾配降下の1つのステップを実行すると、デルタプロダクトを導入します。
これは、自然に対角線プラスランク$ $ n_h $の状態移動マトリックスにつながり、$ n_h $一般化された世帯主の変換の積として形成され、表現性と効率と安定した再発のバランスをとる調整可能なメカニズムを提供します。
広範な実験を通じて、デルタプロダクトが優れた状態追跡および言語モデリング機能を達成しながら、デルタネットと比較して長さの外挿を大幅に改善することを実証します。
さらに、Deltanetの表現力の理論的基盤を強化し、2層での二面体グループの問題を解決できることを証明します。

要約(オリジナル)

Linear Recurrent Neural Networks (linear RNNs) have emerged as competitive alternatives to Transformers for sequence modeling, offering efficient training and linear-time inference. However, existing architectures face a fundamental trade-off between expressivity and efficiency, dictated by the structure of their state-transition matrices. While diagonal matrices used in architectures like Mamba, GLA, or mLSTM yield fast runtime, they suffer from severely limited expressivity. To address this, recent architectures such as (Gated) DeltaNet and RWKVv7 adopted a diagonal plus rank-1 structure, allowing simultaneous token-channel mixing, which overcomes some expressivity limitations with only a slight decrease in training efficiency. Building on the interpretation of DeltaNet’s recurrence as performing one step of online gradient descent per token on an associative recall loss, we introduce DeltaProduct, which instead takes multiple ($n_h$) steps per token. This naturally leads to diagonal plus rank-$n_h$ state-transition matrices, formed as products of $n_h$ generalized Householder transformations, providing a tunable mechanism to balance expressivity and efficiency and a stable recurrence. Through extensive experiments, we demonstrate that DeltaProduct achieves superior state-tracking and language modeling capabilities while exhibiting significantly improved length extrapolation compared to DeltaNet. Additionally, we also strengthen the theoretical foundation of DeltaNet’s expressivity by proving that it can solve dihedral group word problems in just two layers.

arxiv情報

著者 Julien Siems,Timur Carstensen,Arber Zela,Frank Hutter,Massimiliano Pontil,Riccardo Grazzi
発行日 2025-03-07 18:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG | DeltaProduct: Increasing the Expressivity of DeltaNet Through Products of Householders はコメントを受け付けていません

Understanding the Limits of Lifelong Knowledge Editing in LLMs

要約

大規模な言語モデルを事実上最新の状態に保つことは展開に不可欠ですが、費用のかかる再訓練は依然として課題です。
知識編集は有望な代替手段を提供しますが、メソッドは小規模または合成編集ベンチマークでのみテストされています。
この作業では、実質的に関連するスケールでの生涯にわたる知識の編集に関する研究を橋渡しすることを目指しています。
最初にwikibigeditを紹介します。
将来のベンチマークのために生涯にわたって自動的に拡張するように構築された、実際のウィキダタ編集の大規模なベンチマーク。
最初の例では、包括的な評価パイプラインとともに、知識編集のための500k以上の質問回答ペアが含まれています。
最後に、wikibigeditを使用して、既存の知識編集手法の実世界の事実を大量に組み込み、その能力を検索の増強や継続的な微調整などの一般的な修正技術とは対照して、現在の生涯知識編集の実用的な姿を獲得する能力を研究します。

要約(オリジナル)

Keeping large language models factually up-to-date is crucial for deployment, yet costly retraining remains a challenge. Knowledge editing offers a promising alternative, but methods are only tested on small-scale or synthetic edit benchmarks. In this work, we aim to bridge research into lifelong knowledge editing to real-world edits at practically relevant scale. We first introduce WikiBigEdit; a large-scale benchmark of real-world Wikidata edits, built to automatically extend lifelong for future-proof benchmarking. In its first instance, it includes over 500K question-answer pairs for knowledge editing alongside a comprehensive evaluation pipeline. Finally, we use WikiBigEdit to study existing knowledge editing techniques’ ability to incorporate large volumes of real-world facts and contrast their capabilities to generic modification techniques such as retrieval augmentation and continual finetuning to acquire a complete picture of the practical extent of current lifelong knowledge editing.

arxiv情報

著者 Lukas Thede,Karsten Roth,Matthias Bethge,Zeynep Akata,Tom Hartvigsen
発行日 2025-03-07 18:45:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Understanding the Limits of Lifelong Knowledge Editing in LLMs はコメントを受け付けていません