Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions

要約

大規模な言語モデル(LLM)は、さまざまなタスクで顕著な機能を示していますが、ハイステークドメインでの展開には、複数の相互作用ラウンドで一貫したパフォーマンスが必要です。
このペーパーでは、LLM応答の一貫性を評価および改善するための包括的なフレームワークを紹介し、3つの重要な貢献をします。
まず、マルチターン相互作用における初期段階の安定性と回復パターンの両方をキャプチャする新しい位置加重一貫性(PWC)スコアを提案します。
第二に、さまざまな挑戦的なフォローアップシナリオの下でLLMの一貫性を評価するために特別に設計された、多様なドメインと難易度レベルにまたがる慎重にキュレーションされたベンチマークデータセットを提示します。
第三に、モデルの信頼シグナルを生成プロセスに組み込むことにより、応答の安定性を大幅に改善するフレームワークである信頼認識応答生成(CARG)を紹介します。
経験的結果は、CARGが精度を犠牲にすることなく応答の安定性を大幅に改善し、重要なアプリケーションでの信頼性の高いLLM展開の可能性を強調することを示しています。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable capabilities across various tasks, but their deployment in high-stake domains requires consistent performance across multiple interaction rounds. This paper introduces a comprehensive framework for evaluating and improving LLM response consistency, making three key contributions. First, we propose a novel Position-Weighted Consistency (PWC) score that captures both the importance of early-stage stability and recovery patterns in multi-turn interactions. Second, we present a carefully curated benchmark dataset spanning diverse domains and difficulty levels, specifically designed to evaluate LLM consistency under various challenging follow-up scenarios. Third, we introduce Confidence-Aware Response Generation (CARG), a framework that significantly improves response stability by incorporating model confidence signals into the generation process. Empirical results demonstrate that CARG significantly improves response stability without sacrificing accuracy, underscoring its potential for reliable LLM deployment in critical applications.

arxiv情報

著者 Yubo Li,Yidi Miao,Xueying Ding,Ramayya Krishnan,Rema Padman
発行日 2025-03-28 11:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions はコメントを受け付けていません

Supposedly Equivalent Facts That Aren’t? Entity Frequency in Pre-training Induces Asymmetry in LLMs

要約

信頼できるコンテンツ生成を確保するには、大規模な言語モデル(LLMS)での幻覚を理解し、緩和することが重要です。
以前の研究では主に「LLMS幻覚」に焦点を当てていましたが、私たちの作品は「理由」を説明し、モデルの動作を事前知識を形成するトレーニング前のデータに直接リンクしています。
具体的には、非対称性が論理的に同等の事実の認識に存在することを実証します。これは、対象と対象として現れるエンティティの頻度の矛盾に起因する可能性があります。
ほとんどのトレーニングデータセットにアクセスできないことを考えると、Dolmaデータセットをインデックス化してエンティティの頻度を推定することにより、完全にオープンソースのOLMOシリーズを活用します。
Wikidata5Mのリレーショナルファクト(トリプルとして表される)を使用して、この効果を分離するために調査データセットを構築します。
私たちの実験では、高周波の主題と低周波オブジェクトを持つ事実は、論理的な等価性にもかかわらず、逆よりもよく認識されていることが明らかになりました。
パターンは低から高度の周波数設定で逆転し、両方のエンティティが高周波である場合、統計的に有意な非対称性は現れません。
これらの調査結果は、モデルの予測を形成する際のトレーニング前データの影響力のある役割を強調し、閉じたまたは部分的に閉じたLLMでトレーニング前データの特性を推測するための洞察を提供します。

要約(オリジナル)

Understanding and mitigating hallucinations in Large Language Models (LLMs) is crucial for ensuring reliable content generation. While previous research has primarily focused on ‘when’ LLMs hallucinate, our work explains ‘why’ and directly links model behaviour to the pre-training data that forms their prior knowledge. Specifically, we demonstrate that an asymmetry exists in the recognition of logically equivalent facts, which can be attributed to frequency discrepancies of entities appearing as subjects versus objects. Given that most pre-training datasets are inaccessible, we leverage the fully open-source OLMo series by indexing its Dolma dataset to estimate entity frequencies. Using relational facts (represented as triples) from Wikidata5M, we construct probing datasets to isolate this effect. Our experiments reveal that facts with a high-frequency subject and a low-frequency object are better recognised than their inverse, despite their logical equivalence. The pattern reverses in low-to-high frequency settings, and no statistically significant asymmetry emerges when both entities are high-frequency. These findings highlight the influential role of pre-training data in shaping model predictions and provide insights for inferring the characteristics of pre-training data in closed or partially closed LLMs.

arxiv情報

著者 Yuan He,Bailan He,Zifeng Ding,Alisia Lupidi,Yuqicheng Zhu,Shuo Chen,Caiqi Zhang,Jiaoyan Chen,Yunpu Ma,Volker Tresp,Ian Horrocks
発行日 2025-03-28 12:12:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Supposedly Equivalent Facts That Aren’t? Entity Frequency in Pre-training Induces Asymmetry in LLMs はコメントを受け付けていません

DomainCQA: Crafting Expert-Level QA from Domain-Specific Charts

要約

チャート質問応答(CQA)ベンチマークは、視覚データを解釈するためのマルチモーダル大手言語モデル(MLLM)の機能を評価するために不可欠です。
ただし、現在のベンチマークは、主に汎用CQAの評価に焦点を当てていますが、ドメイン固有の課題を適切にキャプチャすることができません。
ドメイン固有のCQAベンチマークを構築するための体系的な方法論であるDomainCQAを紹介し、天文学の分野でのCQAベンチマークであるAstrochartを開発することにより、その有効性を実証します。
私たちの評価は、チャートの推論とチャート情報をドメインの知識と組み合わせて、ドメイン固有の知識ではなく、より深い分析と要約が既存のMLLMの主要な課題をもたらし、現在のベンチマークの重要なギャップを強調することを示しています。
スケーラブルで厳密なフレームワークを提供することにより、DomainCQAは、ドメイン固有のアプリケーションのMLLMのより正確な評価と改善を可能にします。

要約(オリジナル)

Chart Question Answering (CQA) benchmarks are essential for evaluating the capability of Multimodal Large Language Models (MLLMs) to interpret visual data. However, current benchmarks focus primarily on the evaluation of general-purpose CQA but fail to adequately capture domain-specific challenges. We introduce DomainCQA, a systematic methodology for constructing domain-specific CQA benchmarks, and demonstrate its effectiveness by developing AstroChart, a CQA benchmark in the field of astronomy. Our evaluation shows that chart reasoning and combining chart information with domain knowledge for deeper analysis and summarization, rather than domain-specific knowledge, pose the primary challenge for existing MLLMs, highlighting a critical gap in current benchmarks. By providing a scalable and rigorous framework, DomainCQA enables more precise assessment and improvement of MLLMs for domain-specific applications.

arxiv情報

著者 Ling Zhong,Yujing Lu,Jing Yang,Weiming Li,Peng Wei,Yongheng Wang,Manni Duan,Qing Zhang
発行日 2025-03-28 12:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DomainCQA: Crafting Expert-Level QA from Domain-Specific Charts はコメントを受け付けていません

Spend Your Budget Wisely: Towards an Intelligent Distribution of the Privacy Budget in Differentially Private Text Rewriting

要約

$ \ textIT {Differingivativitivitive Private Text rewriting}のタスクは、(敏感な)入力テキストドキュメントが$ \ textit {rewritten} $ differyial Privacy(DP)保証のクラスです。
このような方法の背後にある動機は、元のテキストの意味的な意味を保持しながら、テキストに含まれる可能性のある明示的および暗黙的な識別子の両方を隠すことです。
近年、この分野での研究出力が増加しており、単語、文、およびドキュメントレベルのDP書き換え方法の多様な配列を提供しています。
これらの方法に共通するのは、プライバシー予算(つまり、$ \ varepsilon $パラメーター)の選択です。これは、テキストが民営化されている程度を支配します。
言語自体の一意の構造から直接発生する以前の作品の主要な制限の1つは、言語のすべての側面、したがってテキストが等しく敏感または個人的であるため、プライバシー予算を割り当てる必要がある$ \ textit {ここで$ \ textit {ここで配分する必要があることです。
この作業では、この欠点に対処した最初の人物であり、特定のプライバシー予算がターゲットドキュメントの間にどのように賢明かつ賢明に分配されるかについての質問をしています。
テキストドキュメントでプライバシー予算を構成トークンに割り当てるために使用される言語学およびNLPベースの方法のツールキットを構築および評価します。
一連のプライバシーとユーティリティの実験では、同じプライバシーの予算を考えると、インテリジェントな分布が$ \ varepsilon $の素朴な分布よりも高いプライバシーレベルと肯定的なトレードオフにつながることを経験的に実証します。
私たちの研究は、DPによるテキストの民営化の複雑さを強調しており、さらに、テキスト書き換えでDPが提供する民営化の利点を最大化するためのより効率的な方法を見つけるためのさらなる作業が必要です。

要約(オリジナル)

The task of $\textit{Differentially Private Text Rewriting}$ is a class of text privatization techniques in which (sensitive) input textual documents are $\textit{rewritten}$ under Differential Privacy (DP) guarantees. The motivation behind such methods is to hide both explicit and implicit identifiers that could be contained in text, while still retaining the semantic meaning of the original text, thus preserving utility. Recent years have seen an uptick in research output in this field, offering a diverse array of word-, sentence-, and document-level DP rewriting methods. Common to these methods is the selection of a privacy budget (i.e., the $\varepsilon$ parameter), which governs the degree to which a text is privatized. One major limitation of previous works, stemming directly from the unique structure of language itself, is the lack of consideration of $\textit{where}$ the privacy budget should be allocated, as not all aspects of language, and therefore text, are equally sensitive or personal. In this work, we are the first to address this shortcoming, asking the question of how a given privacy budget can be intelligently and sensibly distributed amongst a target document. We construct and evaluate a toolkit of linguistics- and NLP-based methods used to allocate a privacy budget to constituent tokens in a text document. In a series of privacy and utility experiments, we empirically demonstrate that given the same privacy budget, intelligent distribution leads to higher privacy levels and more positive trade-offs than a naive distribution of $\varepsilon$. Our work highlights the intricacies of text privatization with DP, and furthermore, it calls for further work on finding more efficient ways to maximize the privatization benefits offered by DP in text rewriting.

arxiv情報

著者 Stephen Meisenbacher,Chaeeun Joy Lee,Florian Matthes
発行日 2025-03-28 12:33:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Spend Your Budget Wisely: Towards an Intelligent Distribution of the Privacy Budget in Differentially Private Text Rewriting はコメントを受け付けていません

Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors

要約

LLMはソフトウェア開発を変換していますが、現在のコード生成およびコード修理ベンチマークは、主に単純な単一エラーのケースで構文的および機能的正しさを評価しています。
複雑なデータサイエンスコードのランタイムの論理エラーを自律的に見つけて修正するLLMSの機能は、ほとんど未踏のままです。
このギャップに対処するために、DSDBench:データサイエンスデバッグベンチマークを紹介します。これは、データサイエンスコードのデバッグにおけるマルチホップエラートレースとマルチバグ検出に関するLLMSの系統的評価のための最初のベンチマークです。
DSDBenchは、DabenchやMatplotbenchなどの既存のデータサイエンスタスクベンチマークからのデータセットを適合させます。これは、自動的に合成されたマルチホップ、マルチバグコードスニペットを備えた現実的なデータサイエンスデバッグタスクを備えています。
DSDBenchには、741の原因効果エラーペアとランタイムエラーメッセージを備えた1,117の注釈付きサンプルが含まれています。
DSDBenchでの最先端のLLMの評価は、重要なパフォーマンスギャップを示し、データサイエンスコードの論理ランタイムエラーのデバッグの課題を強調しています。
DSDBenchは、LLMSのデバッグと推論機能を評価および改善するための重要なリソースを提供し、将来より信頼性の高いAIアシストデータサイエンスを可能にします。DSDBenchはhttps://github.com/kevincl16/dsdbenchで公開されています。

要約(オリジナル)

LLMs are transforming software development, yet current code generation and code repair benchmarks mainly assess syntactic and functional correctness in simple, single-error cases. LLMs’ capabilities to autonomously find and fix runtime logical errors in complex data science code remain largely unexplored. To address this gap, we introduce DSDBench: the Data Science Debugging Benchmark, the first benchmark for systematic evaluation of LLMs on multi-hop error tracing and multi-bug detection in data science code debugging. DSDBench adapts datasets from existing data science task benchmarks, such as DABench and MatPlotBench, featuring realistic data science debugging tasks with automatically synthesized multi-hop, multi-bug code snippets. DSDBench includes 1,117 annotated samples with 741 cause-effect error pairs and runtime error messages. Evaluations of state-of-the-art LLMs on DSDBench show significant performance gaps, highlighting challenges in debugging logical runtime errors in data science code. DSDBench offers a crucial resource to evaluate and improve LLMs’ debugging and reasoning capabilities, enabling more reliable AI-assisted data science in the future.DSDBench is publicly available at https://github.com/KevinCL16/DSDBench.

arxiv情報

著者 Zhiyu Yang,Shuo Wang,Yukun Yan,Yang Deng
発行日 2025-03-28 12:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors はコメントを受け付けていません

Negation: A Pink Elephant in the Large Language Models’ Room?

要約

否定は、文の意味を決定するための鍵であり、論理的な推論に不可欠です。
それらの重要性にもかかわらず、否定は大規模な言語モデル(LLM)に大きな課題をもたらし、露出していないままです。
否定が異なる\ textit {ペア付き}の例を使用して、2つの多言語自然言語推論(NLI)データセットを構築します。
人気のあるLLMを評価することにより、モデルのサイズと言語が否定を正しく処理する能力にどのように影響するかを調査します。
以前の研究とは反対に、モデルサイズを増やすと、モデルの否定を処理する能力が一貫して改善されることが示されます。
さらに、モデルの推論の精度と否定に対する堅牢性の両方が言語依存性であり、前提の長さと明示性が言語よりも堅牢性に大きな影響を与えることがわかります。
当社のデータセットは、多言語設定での言語モデルの推論のさらなる研究と改善を促進することができます。

要約(オリジナル)

Negations are key to determining sentence meaning, making them essential for logical reasoning. Despite their importance, negations pose a substantial challenge for large language models (LLMs) and remain underexplored. We construct two multilingual natural language inference (NLI) datasets with \textit{paired} examples differing in negation. We investigate how model size and language impact its ability to handle negation correctly by evaluating popular LLMs. Contrary to previous work, we show that increasing the model size consistently improves the models’ ability to handle negations. Furthermore, we find that both the models’ reasoning accuracy and robustness to negation are language-dependent and that the length and explicitness of the premise have a greater impact on robustness than language. Our datasets can facilitate further research and improvements of language model reasoning in multilingual settings.

arxiv情報

著者 Tereza Vrabcová,Marek Kadlčík,Petr Sojka,Michal Štefánik,Michal Spiegel
発行日 2025-03-28 13:04:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Negation: A Pink Elephant in the Large Language Models’ Room? はコメントを受け付けていません

DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products

要約

線形再発性ニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスの競争力のある代替品として浮上しており、効率的なトレーニングと線形時間推論を提供しています。
ただし、既存のアーキテクチャは、表現力と効率性の基本的なトレードオフに直面しており、国家移動マトリックスの構造によって決定されます。
Mamba、GLA、またはMLSTMなどのアーキテクチャで使用される斜めのマトリックスは、ランタイムが速い速いことを生み出しますが、表現率は厳しくありません。
これに対処するために、(ゲート)デルタネットやRWKV-7などの最近のアーキテクチャは、対角線プラスランク1構造を採用し、同時トークンチャネル混合を可能にし、トレーニング効率がわずかに低下するだけで表現率の制限を克服します。
デルタネットの再発の解釈に基づいて、連想リコール損失でトークンごとにオンライン勾配降下の1つのステップを実行すると、デルタプロダクトを導入します。
これは、自然に対角線プラスランク$ $ n_h $の状態移動マトリックスにつながり、$ n_h $一般化された世帯主の変換の積として形成され、表現性と効率と安定した再発のバランスをとる調整可能なメカニズムを提供します。
広範な実験を通じて、デルタプロダクトが優れた状態追跡および言語モデリング機能を達成しながら、デルタネットと比較して長さの外挿を大幅に改善することを実証します。
さらに、Deltanetの理論的基礎を強化し、2層での二面体グループの問題を解決できることを証明します。

要約(オリジナル)

Linear Recurrent Neural Networks (linear RNNs) have emerged as competitive alternatives to Transformers for sequence modeling, offering efficient training and linear-time inference. However, existing architectures face a fundamental trade-off between expressivity and efficiency, dictated by the structure of their state-transition matrices. While diagonal matrices used in architectures like Mamba, GLA, or mLSTM yield fast runtime, they suffer from severely limited expressivity. To address this, recent architectures such as (Gated) DeltaNet and RWKV-7 adopted a diagonal plus rank-1 structure, allowing simultaneous token-channel mixing, which overcomes some expressivity limitations with only a slight decrease in training efficiency. Building on the interpretation of DeltaNet’s recurrence as performing one step of online gradient descent per token on an associative recall loss, we introduce DeltaProduct, which instead takes multiple ($n_h$) steps per token. This naturally leads to diagonal plus rank-$n_h$ state-transition matrices, formed as products of $n_h$ generalized Householder transformations, providing a tunable mechanism to balance expressivity and efficiency and a stable recurrence. Through extensive experiments, we demonstrate that DeltaProduct achieves superior state-tracking and language modeling capabilities while exhibiting significantly improved length extrapolation compared to DeltaNet. Additionally, we also strengthen the theoretical foundation of DeltaNet by proving that it can solve dihedral group word problems in just two layers.

arxiv情報

著者 Julien Siems,Timur Carstensen,Arber Zela,Frank Hutter,Massimiliano Pontil,Riccardo Grazzi
発行日 2025-03-28 13:16:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG | DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products はコメントを受け付けていません

Elite Political Discourse has Become More Toxic in Western Countries

要約

有毒で不自然な政治は、民主的価値とガバナンスに対する脅威の高まりと広く見られていますが、政治的敵意の要因と進化の理解は限られています。
5年間にわたって17か国の議会議員からの1800万人近くのTwitterメッセージの新しいデータセットを活用して、この論文は、国際的に政治がより不確かになっているかどうか、そして政治的矛盾の決定要因は何であるかを体系的に調査します。
私たちの分析は、政治的エリートの間での有毒な言説の著しい増加を明らかにし、それは反対の過激な右政党と政党に関連していることを明らかにしています。
毒性は、Covid-19のパンデミックの初期段階で著しく減少し、驚くべきことに、選挙運動中に減少しました。
さらに、我々の結果は、「文化戦争」に関連する投稿が移行やLGBTQ+の権利などのトピックが、福祉や経済問題に焦点を当てた議論よりもかなり有毒であることを示しています。
これらの発見は、建設的な民主的対話の侵食に対する国際民主主義の厄介な変化を強調しています。

要約(オリジナル)

Toxic and uncivil politics is widely seen as a growing threat to democratic values and governance, yet our understanding of the drivers and evolution of political incivility remains limited. Leveraging a novel dataset of nearly 18 million Twitter messages from parliamentarians in 17 countries over five years, this paper systematically investigates whether politics internationally is becoming more uncivil, and what are the determinants of political incivility. Our analysis reveals a marked increase in toxic discourse among political elites, and that it is associated to radical-right parties and parties in opposition. Toxicity diminished markedly during the early phase of the COVID-19 pandemic and, surprisingly, during election campaigns. Furthermore, our results indicate that posts relating to “culture war” topics, such as migration and LGBTQ+ rights, are substantially more toxic than debates focused on welfare or economic issues. These findings underscore a troubling shift in international democracies toward an erosion of constructive democratic dialogue.

arxiv情報

著者 Petter Törnberg,Juliana Chueri
発行日 2025-03-28 13:21:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Elite Political Discourse has Become More Toxic in Western Countries はコメントを受け付けていません

Whispering in Amharic: Fine-tuning Whisper for Low-resource Language

要約

この作業では、転写の精度を向上させるために、低リソース言語であるAmharicの微調整Openaiのささやき自動音声認識(ASR)モデルを探ります。
基本的なささやきモデルは、トレーニングデータの表現が限られているためAmharicと闘っていますが、Mozilla Common Voice、Fleurs、BDU-Speech Datasetなどのデータセットを使用して微調整します。
最高のパフォーマンスモデルであるWhispersmall-Amは、既存のFleursデータと新しい目に見えないAmharicデータセットの組み合わせで微調整されると大幅に改善されます。
新しいデータのみでのトレーニングはパフォーマンスの低下につながりますが、それをFleursデータと組み合わせることでモデルが強化され、AMHARICのより良い専門化が可能になります。
また、AMHARICの正規化により、単語エラー率(WER)およびバイリンガル評価アンダースタディ(BLE)スコアが大幅に向上することも実証しています。
この研究では、低リソース言語でASRを改善するための微調整戦略とデータセット構成の重要性を強調し、将来のAMHARIC音声認識研究の洞察を提供します。

要約(オリジナル)

This work explores fine-tuning OpenAI’s Whisper automatic speech recognition (ASR) model for Amharic, a low-resource language, to improve transcription accuracy. While the foundational Whisper model struggles with Amharic due to limited representation in its training data, we fine-tune it using datasets like Mozilla Common Voice, FLEURS, and the BDU-speech dataset. The best-performing model, Whispersmall-am, significantly improves when finetuned on a mix of existing FLEURS data and new, unseen Amharic datasets. Training solely on new data leads to poor performance, but combining it with FLEURS data reinforces the model, enabling better specialization in Amharic. We also demonstrate that normalizing Amharic homophones significantly enhances Word Error Rate (WER) and Bilingual Evaluation Understudy (BLEU) scores. This study underscores the importance of fine-tuning strategies and dataset composition for improving ASR in low-resource languages, providing insights for future Amharic speech recognition research.

arxiv情報

著者 Dawit Ketema Gete,Bedru Yimam Ahmed,Tadesse Destaw Belay,Yohannes Ayana Ejigu,Sukairaj Hafiz Imam,Alemu Belay Tessema,Mohammed Oumer Adem,Tadesse Amare Belay,Robert Geislinger,Umma Aliyu Musa,Martin Semmann,Shamsuddeen Hassan Muhammad,Henning Schreiber,Seid Muhie Yimam
発行日 2025-03-28 13:26:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Whispering in Amharic: Fine-tuning Whisper for Low-resource Language はコメントを受け付けていません

Long-Tail Crisis in Nearest Neighbor Language Models

要約

検索中のテキストデータから構築された大規模なデータストアに直接アクセスすることにより、検索された言語モデルの1つである$ k $ -nearest-neighbor言語モデル($ k $ nnnlm)は、特定のテキストの困惑を改善します。
$ k $ nnnlmの成功のための広く保持されている仮説は、その明示的なメモリ、つまりデータストアが長期尾現象の予測を強化することです。
ただし、以前の作品は主にロングテールのコンテキストを取得する能力を示しており、推論中の長期ターゲットトークンの確率を推定する際に、モデルのパフォーマンスを不足しているままにしておきます。
このホワイトペーパーでは、低周波トークンでの$ k $ nnnlmの動作を調査し、予測の確率、検索精度、データストアのトークン分布、および製品量子量化の近似誤差を調べます。
私たちの実験結果は、$ K $ nnn-LMが低周波トークンの予測パフォーマンスを改善しないが、主にデータストアの長期尾のコンテキストに関係なく高頻度のトークンに利益をもたらすことを明らかにしています。

要約(オリジナル)

The $k$-nearest-neighbor language model ($k$NN-LM), one of the retrieval-augmented language models, improves the perplexity for given text by directly accessing a large datastore built from any text data during inference. A widely held hypothesis for the success of $k$NN-LM is that its explicit memory, i.e., the datastore, enhances predictions for long-tail phenomena. However, prior works have primarily shown its ability to retrieve long-tail contexts, leaving the model’s performance remain underexplored in estimating the probabilities of long-tail target tokens during inference. In this paper, we investigate the behavior of $k$NN-LM on low-frequency tokens, examining prediction probability, retrieval accuracy, token distribution in the datastore, and approximation error of the product quantization. Our experimental results reveal that $k$NN-LM does not improve prediction performance for low-frequency tokens but mainly benefits high-frequency tokens regardless of long-tail contexts in the datastore.

arxiv情報

著者 Yuto Nishida,Makoto Morishita,Hiroyuki Deguchi,Hidetaka Kamigaito,Taro Watanabe
発行日 2025-03-28 13:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Long-Tail Crisis in Nearest Neighbor Language Models はコメントを受け付けていません