Token-Level Privacy in Large Language Models

要約

言語モデルをリモートサービスとして使用するには、個人情報を外部プロバイダーに送信する必要があり、大きなプライバシーの懸念を引き起こします。
このプロセスは、機密データを信頼されていないサービスプロバイダーにさらすリスクがあるだけでなく、盗聴者による傍受に対して脆弱なままになります。
自然言語処理(NLP)の相互作用のための既存のプライバシー普及方法は、主にセマンティックな類似性に依存しており、コンテキスト情報の役割を見下ろしています。
この作業では、DCHIステンシルを紹介します。これは、DCHIの差動プライバシーフレームワークの下で強力なプライバシー保証を確保し、2EPSILON-DCHI-PRIVACYを達成しながら、コンテキストおよびセマンティック情報を統合する新しいトークンレベルのプライバシーを提供するメカニズムです。
セマンティックとコンテキストの両方のニュアンスを組み込むことにより、DCHI-Stencilはプライバシーとユーティリティの間の堅牢なバランスを達成します。
最先端の言語モデルと多様なデータセットを使用してDCHIステンシルを評価し、既存の方法と比較して、ユーティリティとプライバシーの間で同等かつさらに良いトレードオフを達成します。
この作業は、DCHIステンシルが最新のハイリスクアプリケーションでプライバシーを提供するNLPの新しい基準を設定する可能性を強調しています。

要約(オリジナル)

The use of language models as remote services requires transmitting private information to external providers, raising significant privacy concerns. This process not only risks exposing sensitive data to untrusted service providers but also leaves it vulnerable to interception by eavesdroppers. Existing privacy-preserving methods for natural language processing (NLP) interactions primarily rely on semantic similarity, overlooking the role of contextual information. In this work, we introduce dchi-stencil, a novel token-level privacy-preserving mechanism that integrates contextual and semantic information while ensuring strong privacy guarantees under the dchi differential privacy framework, achieving 2epsilon-dchi-privacy. By incorporating both semantic and contextual nuances, dchi-stencil achieves a robust balance between privacy and utility. We evaluate dchi-stencil using state-of-the-art language models and diverse datasets, achieving comparable and even better trade-off between utility and privacy compared to existing methods. This work highlights the potential of dchi-stencil to set a new standard for privacy-preserving NLP in modern, high-risk applications.

arxiv情報

著者 Re’em Harel,Niv Gilboa,Yuval Pinter
発行日 2025-03-05 16:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Token-Level Privacy in Large Language Models はコメントを受け付けていません

Towards Effective Time-Aware Language Representation: Exploring Enhanced Temporal Understanding in Language Models

要約

自然言語処理の進化分野(NLP)では、テキストの時間的コンテキストを理解することは、高度な時間的推論を必要とするアプリケーションにとってますます重要になっています。
BookCorpusやWikipediaなどの同期ドキュメントコレクションに依存するBertのような従来の事前訓練を受けた言語モデルは、時間情報を効果的にキャプチャして活用するのが不足していることがよくあります。
この制限に対処するために、一時的なニュース記事コレクションで事前に訓練された新しい時間を手に入れた言語モデルであるBitimebert 2.0を紹介します。
Bitimebert 2.0には、3つの革新的なトレーニング前の目標を通じて一時的な情報が組み込まれています:拡張時間に対応するマスク言語モデリング(ETAMLM)、ドキュメントデート(DD)、および時間依存エンティティ交換(TSER)。
各目的は、一時的な情報の明確な次元をターゲットにするように特異的に設計されています。ETAMLMは、一時的なコンテキストと関係のモデルの理解を高め、DDはドキュメントタイムスタンプを明示的な時系列マーカーとして統合し、TSERは「人」エンティティの時間的ダイナミクスに焦点を当てています。
さらに、洗練されたコーパス前処理戦略により、トレーニング時間が53%近く短縮され、Bitimebert 2.0が高性能を維持しながら大幅に効率的になります。
実験結果は、Bitimebert 2.0が幅広い時間関連タスクにわたって大幅な改善を達成し、広範な時間範囲にまたがるデータセットで優れていることを示しています。
これらの調査結果は、NLPで一時的な推論を進めるための強力なツールとして、Bitimebert 2.0の可能性を強調しています。

要約(オリジナル)

In the evolving field of Natural Language Processing (NLP), understanding the temporal context of text is increasingly critical for applications requiring advanced temporal reasoning. Traditional pre-trained language models like BERT, which rely on synchronic document collections such as BookCorpus and Wikipedia, often fall short in effectively capturing and leveraging temporal information. To address this limitation, we introduce BiTimeBERT 2.0, a novel time-aware language model pre-trained on a temporal news article collection. BiTimeBERT 2.0 incorporates temporal information through three innovative pre-training objectives: Extended Time-Aware Masked Language Modeling (ETAMLM), Document Dating (DD), and Time-Sensitive Entity Replacement (TSER). Each objective is specifically designed to target a distinct dimension of temporal information: ETAMLM enhances the model’s understanding of temporal contexts and relations, DD integrates document timestamps as explicit chronological markers, and TSER focuses on the temporal dynamics of ‘Person’ entities. Moreover, our refined corpus preprocessing strategy reduces training time by nearly 53\%, making BiTimeBERT 2.0 significantly more efficient while maintaining high performance. Experimental results show that BiTimeBERT 2.0 achieves substantial improvements across a broad range of time-related tasks and excels on datasets spanning extensive temporal ranges. These findings underscore BiTimeBERT 2.0’s potential as a powerful tool for advancing temporal reasoning in NLP.

arxiv情報

著者 Jiexin Wang,Adam Jatowt,Yi Cai
発行日 2025-03-05 16:27:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Effective Time-Aware Language Representation: Exploring Enhanced Temporal Understanding in Language Models はコメントを受け付けていません

The Noisy Path from Source to Citation: Measuring How Scholars Engage with Past Research

要約

学術的な引用は、研究と知識の流れを追跡するために広く使用されています。
このような使用は通常、生の引用数に依存し、引用タイプの変動性を無視します。
特に、引用された研究からの元の知識が言い換えれ、要約、または再解釈され、おそらく誤って再解釈され、引用された紙から引用紙への情報の変化の変化につながる可能性があるため、引用は忠実に異なる場合があります。
この研究では、計算パイプラインを導入して、規模の引用忠実度を定量化します。
パイプラインは、論文の全文を使用して、引用論文と引用された論文の対応するクレームの引用を特定し、文レベルで忠実度を測定するために監視されたモデルを適用します。
約1300万の引用文のペアの大規模な学際的なデータセットを分析すると、著者が1)より最近、知的に近い論文を引用すると、2)よりアクセスしやすい、3)最初の著者はより低いH-indexと著者チームが中程度であることがわかります。
準実験を使用して、「電話効果」を確立します。引用論文が元の主張に忠実である場合は、引用用紙とオリジナルの引用を引用する将来の論文がオリジナルに対して忠実度が低くなります。
私たちの仕事は、引用の忠実度の体系的な違いを明らかにし、引用量だけに依存する分析の限界と証拠の歪みの可能性を強調しています。

要約(オリジナル)

Academic citations are widely used for evaluating research and tracing knowledge flows. Such uses typically rely on raw citation counts and neglect variability in citation types. In particular, citations can vary in their fidelity as original knowledge from cited studies may be paraphrased, summarized, or reinterpreted, possibly wrongly, leading to variation in how much information changes from cited to citing paper. In this study, we introduce a computational pipeline to quantify citation fidelity at scale. Using full texts of papers, the pipeline identifies citations in citing papers and the corresponding claims in cited papers, and applies supervised models to measure fidelity at the sentence level. Analyzing a large-scale multi-disciplinary dataset of approximately 13 million citation sentence pairs, we find that citation fidelity is higher when authors cite papers that are 1) more recent and intellectually close, 2) more accessible, and 3) the first author has a lower H-index and the author team is medium-sized. Using a quasi-experiment, we establish the ‘telephone effect’ – when citing papers have low fidelity to the original claim, future papers that cite the citing paper and the original have lower fidelity to the original. Our work reveals systematic differences in citation fidelity, underscoring the limitations of analyses that rely on citation quantity alone and the potential for distortion of evidence.

arxiv情報

著者 Hong Chen,Misha Teplitskiy,David Jurgens
発行日 2025-03-05 16:32:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Noisy Path from Source to Citation: Measuring How Scholars Engage with Past Research はコメントを受け付けていません

Analogical Reasoning Inside Large Language Models: Concept Vectors and the Limits of Abstraction

要約

類推的な推論は概念的な抽象化に依存していますが、大規模な言語モデル(LLM)がそのような内部表現を抱えているかどうかは不明です。
LLMの活性化からの蒸留表現を調査し、関数ベクトル(FVS; Todd et al。、2024) – コンテキスト学習(ICL)タスクのコンパクトな表現は、単純な入力の変更(例えば、オープンエンド対多系列)に不変ではありません。
表現類似性分析(RSA)を使用して、「反意語」などの言葉による概念に不変の概念ベクトル(CV)をコードする小さな注意ヘッドのセットをローカライズします。
これらのCVSは、最終出力とは独立して動作する特徴検出器として機能します。つまり、モデルは正しい内部表現を形成しながら、まだ誤った出力を生成する可能性があることを意味します。
さらに、CVはモデルの動作を因果的に誘導するために使用できます。
ただし、「以前」や「次」などのより抽象的な概念の場合、不変の線形表現は観察されません。これは、これらのドメイン内にLLMSが表示する一般化可能性の問題にリンクしています。

要約(オリジナル)

Analogical reasoning relies on conceptual abstractions, but it is unclear whether Large Language Models (LLMs) harbor such internal representations. We explore distilled representations from LLM activations and find that function vectors (FVs; Todd et al., 2024) – compact representations for in-context learning (ICL) tasks – are not invariant to simple input changes (e.g., open-ended vs. multiple-choice), suggesting they capture more than pure concepts. Using representational similarity analysis (RSA), we localize a small set of attention heads that encode invariant concept vectors (CVs) for verbal concepts like ‘antonym’. These CVs function as feature detectors that operate independently of the final output – meaning that a model may form a correct internal representation yet still produce an incorrect output. Furthermore, CVs can be used to causally guide model behaviour. However, for more abstract concepts like ‘previous’ and ‘next’, we do not observe invariant linear representations, a finding we link to generalizability issues LLMs display within these domains.

arxiv情報

著者 Gustaw Opiełka,Hannes Rosenbusch,Claire E. Stevenson
発行日 2025-03-05 16:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Analogical Reasoning Inside Large Language Models: Concept Vectors and the Limits of Abstraction はコメントを受け付けていません

Quantification of Tenseness in English and Japanese Tense-Lax Vowels: A Lagrangian Model with Indicator $θ_1$ and Force of Tenseness Ftense(t)

要約

母音の緊張性の概念は、伝統的に時制と緩き母音のバイナリ区別を通じて調べられてきました。
ただし、緊張の定量的定義は、どの言語でも確立されていません。
Jakobson、Falt、and Halle(1951)、Chomsky and Halle(1968)による以前の研究では、母音の緊張と声道との関係が調査されています。
これらの基礎に基づいて、石崎(2019、2022)は、フォーマント角度$ \ theta_1 $および$ \ theta_ {f1} $と2番目のデリバティブ、$ d^z_1(t)/dt = \ lim \ tan \ theta_1(t $ d^2 $ d^2)を使用して、母音の緊張性の間接的な定量化を提案しました。
Z_1(t)/dt^2 = d/dt \ lim \ tan \ theta_1(t)$。
この研究は、母音の品質を決定する際の力関連パラメーターの潜在的な役割を調査することにより、このアプローチを拡張します。
具体的には、ラグランジアン方程式に基づいた単純化されたモデルを導入して、近音の明確化中の口腔内の舌と顎の動的な相互作用を説明します。
このモデルは、異なる言語で母音生産に関与する力を推定するための理論的枠組みを提供し、母音の明確化の根底にある物理的メカニズムに関する新しい洞察を提供します。
調査結果は、この力に基づく視点が音声学および音韻研究の重要な要因としてさらなる調査を保証することを示唆しています。

要約(オリジナル)

The concept of vowel tenseness has traditionally been examined through the binary distinction of tense and lax vowels. However, no universally accepted quantitative definition of tenseness has been established in any language. Previous studies, including those by Jakobson, Fant, and Halle (1951) and Chomsky and Halle (1968), have explored the relationship between vowel tenseness and the vocal tract. Building on these foundations, Ishizaki (2019, 2022) proposed an indirect quantification of vowel tenseness using formant angles $\theta_1$ and $\theta_{F1}$ and their first and second derivatives, $d^Z_1(t)/dt = \lim \tan \theta_1(t$) and $d^2 Z_1(t)/dt^2 = d/dt \lim \tan \theta_1(t)$. This study extends this approach by investigating the potential role of a force-related parameter in determining vowel quality. Specifically, we introduce a simplified model based on the Lagrangian equation to describe the dynamic interaction of the tongue and jaw within the oral cavity during the articulation of close vowels. This model provides a theoretical framework for estimating the forces involved in vowel production across different languages, offering new insights into the physical mechanisms underlying vowel articulation. The findings suggest that this force-based perspective warrants further exploration as a key factor in phonetic and phonological studies.

arxiv情報

著者 Tatsuya Ishizaki
発行日 2025-03-05 17:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Quantification of Tenseness in English and Japanese Tense-Lax Vowels: A Lagrangian Model with Indicator $θ_1$ and Force of Tenseness Ftense(t) はコメントを受け付けていません

CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition

要約

最新のディープラーニングモデルは、多くの場合、全体的なパフォーマンスが高いことが多くなりますが、特定のサブグループでは一貫して失敗します。
グループ分布堅牢な最適化(グループDRO)は、最悪のグループの損失を最小限に抑えることによりこの問題に対処しますが、グループ損失がグループ間のパフォーマンスの違いを誤って伝えた場合に失敗します。
これは、広く使用されているコネクショニストの時間的分類(CTC)損失スケールが入力長で、言語的および音響特性によって変化し、グループ損失間の違法な違いをもたらす音声などのドメインで一般的です。
CTC-DROを提示します。これは、グループの重量アップデートを滑らかにして一貫して高い損失グループの過度の強調を防ぎながら、CTCのスケーリングの問題を軽減するために一貫して高い損失グループの過度の強調を防ぐことにより、グループDRO目的の欠点に対処します。
ML-Superb 2.0ベンチマークから5つの言語セットにわたって、多言語自動音声認識(ASR)のタスクについてCTC-Droを評価します。
CTC-DROは、グループDROおよびCTCベースのベースラインモデルを一貫して上回り、最悪の言語エラーを最大47.1%、平均エラーを最大32.9%減少させます。
CTC-DROは、最小限の計算コストでASRに適用でき、同様の課題を持つ他のドメインのグループ格差を減らす可能性を提供します。

要約(オリジナル)

Modern deep learning models often achieve high overall performance, but consistently fail on specific subgroups. Group distributionally robust optimization (group DRO) addresses this problem by minimizing the worst-group loss, but it fails when group losses misrepresent performance differences between groups. This is common in domains like speech, where the widely used connectionist temporal classification (CTC) loss scales with input length and varies with linguistic and acoustic properties, leading to spurious differences between group losses. We present CTC-DRO, which addresses the shortcomings of the group DRO objective by smoothing the group weight update to prevent overemphasis on consistently high-loss groups, while using input length-matched batching to mitigate CTC’s scaling issues. We evaluate CTC-DRO on the task of multilingual automatic speech recognition (ASR) across five language sets from the ML-SUPERB 2.0 benchmark. CTC-DRO consistently outperforms group DRO and CTC-based baseline models, reducing the worst-language error by up to 47.1% and the average error by up to 32.9%. CTC-DRO can be applied to ASR with minimal computational costs, and offers the potential for reducing group disparities in other domains with similar challenges.

arxiv情報

著者 Martijn Bartelds,Ananjan Nandi,Moussa Koulako Bala Doumbouya,Dan Jurafsky,Tatsunori Hashimoto,Karen Livescu
発行日 2025-03-05 17:25:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS | CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition はコメントを受け付けていません

MAS-GPT: Training LLMs to Build LLM-based Multi-Agent Systems

要約

LLMベースのマルチエージェントシステム(MAS)は、多様なタスクへの取り組みに大きな可能性を示しています。
ただし、効果的なMASを設計するために、既存のアプローチは、手動構成または高度なLLMの複数の呼び出しに大きく依存しているため、適応性が不可能になり、推論コストが高くなります。
この論文では、入力がユーザークエリであり、出力が対応するMASである生成言語タスクとして再構成することにより、MASを構築するプロセスを簡素化します。
この新しいタスクに対処するために、MASを実行可能コードとして表現し、一貫性指向のデータ構築パイプラインを提案して、コヒーレントで一貫したクエリMASペアを含む高品質のデータセットを作成します。
このデータセットを使用して、単一のLLM推論内でクエリ適応MASを生成できるオープンソース中サイズのLLMであるMAS-GPTをトレーニングします。
生成されたMAは、ユーザークエリを処理し、高品質の応答を提供するためにシームレスに適用できます。
9つのベンチマークと5つのLLMでの広範な実験は、提案されたMAS-GPTが多様な設定で10以上のベースラインMASメソッドを常に上回ることを示しており、MAS-GPTの高い効果、効率性、強力な一般化能力を示しています。
コードはhttps://github.com/rui-ye/mas-gptで入手できます。

要約(オリジナル)

LLM-based multi-agent systems (MAS) have shown significant potential in tackling diverse tasks. However, to design effective MAS, existing approaches heavily rely on manual configurations or multiple calls of advanced LLMs, resulting in inadaptability and high inference costs. In this paper, we simplify the process of building an MAS by reframing it as a generative language task, where the input is a user query and the output is a corresponding MAS. To address this novel task, we unify the representation of MAS as executable code and propose a consistency-oriented data construction pipeline to create a high-quality dataset comprising coherent and consistent query-MAS pairs. Using this dataset, we train MAS-GPT, an open-source medium-sized LLM that is capable of generating query-adaptive MAS within a single LLM inference. The generated MAS can be seamlessly applied to process user queries and deliver high-quality responses. Extensive experiments on 9 benchmarks and 5 LLMs show that the proposed MAS-GPT consistently outperforms 10+ baseline MAS methods on diverse settings, indicating MAS-GPT’s high effectiveness, efficiency and strong generalization ability. Code will be available at https://github.com/rui-ye/MAS-GPT.

arxiv情報

著者 Rui Ye,Shuo Tang,Rui Ge,Yaxin Du,Zhenfei Yin,Siheng Chen,Jing Shao
発行日 2025-03-05 17:27:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MA | MAS-GPT: Training LLMs to Build LLM-based Multi-Agent Systems はコメントを受け付けていません

Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models

要約

高品質のデータリソースは、特に広東語のような低リソース言語では、大規模な言語モデル(LLM)を学習する上で重要な役割を果たします。
8,500万人以上のネイティブスピーカーを抱えているにもかかわらず、広東語は、広東語の支配、特徴を話すコミュニティ内の凝集の欠如、キャラクターエンコードと入力方法の多様性の欠如、海外広東語のスピーカーのイギリスを好む傾向などの要因により、自然言語処理の分野(NLP)の低リソース言語と見なされています。
さらに、広東語、英語のローンワード、およびコードスイッチング特性の豊富な口語の語彙は、コーパスの収集と処理の複雑さを増します。
これらの課題に対処するために、オープンソースコーパス、香港固有のフォーラム、ウィキペディア、一般的なクロールデータなど、さまざまなソースから広東語のテキストを収集します。
言語フィルタリング、品質フィルタリング、コンテンツフィルタリング、および重複脱重ステップを通じて厳格なデータ処理を実施し、大規模な言語モデルをトレーニングするために20億を超えるトークンの高品質の広東コーパスの構築に成功しました。
さらに、キュレーションされた広東語のタスクで監視された微調整(SFT)を通じてモデルを改良し、特定のアプリケーションを処理する能力を高めました。
トレーニングが完了すると、モデルは4つの広東語のベンチマークで最先端の(SOTA)パフォーマンスを実現します。
データセットでトレーニングした後、モデルは他の主流の言語タスクのパフォーマンスの向上も示します。

要約(オリジナル)

High-quality data resources play a crucial role in learning large language models (LLMs), particularly for low-resource languages like Cantonese. Despite having more than 85 million native speakers, Cantonese is still considered a low-resource language in the field of natural language processing (NLP) due to factors such as the dominance of Mandarin, lack of cohesion within the Cantonese-speaking community, diversity in character encoding and input methods, and the tendency of overseas Cantonese speakers to prefer using English. In addition, rich colloquial vocabulary of Cantonese, English loanwords, and code-switching characteristics add to the complexity of corpus collection and processing. To address these challenges, we collect Cantonese texts from a variety of sources, including open source corpora, Hong Kong-specific forums, Wikipedia, and Common Crawl data. We conduct rigorous data processing through language filtering, quality filtering, content filtering, and de-duplication steps, successfully constructing a high-quality Cantonese corpus of over 2 billion tokens for training large language models. We further refined the model through supervised fine-tuning (SFT) on curated Cantonese tasks, enhancing its ability to handle specific applications. Upon completion of the training, the model achieves state-of-the-art (SOTA) performance on four Cantonese benchmarks. After training on our dataset, the model also exhibits improved performance on other mainstream language tasks.

arxiv情報

著者 Jiyue Jiang,Alfred Kar Yin Truong,Yanyu Chen,Qinghang Bao,Sheng Wang,Pengan Chen,Jiuming Wang,Lingpeng Kong,Yu Li,Chuan Wu
発行日 2025-03-05 17:53:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models はコメントを受け付けていません

SoftMatcha: A Soft and Fast Pattern Matcher for Billion-Scale Corpus Searches

要約

自然言語処理と計算言語学の研究者と実践者は、大規模なコーパスの実際の言語使用を頻繁に観察して分析します。
その目的のために、彼らはしばしば、GREPやキーワードインコルダンサーなどの既製のパターンマッチングツールを使用します。
それにもかかわらず、これらの既存の手法は、表面レベルの文字列の一致に依存しているため、正書法のバリエーションと言い換えを処理できないという主要な制限に悩まされています。
さらに、密なベクター検索などの既存の連続的なアプローチは、過度に粗く、無関係であるが同様のトピックを共有するテキストを取得することがよくあります。
これらの課題を考慮して、単語の埋め込みと表面レベルのマッチングをリラックスさせることにより、\ emph {soft}(またはセマンティック)でありながら効率的なパターンマッチングを達成する新しいアルゴリズムを提案します。
当社のアルゴリズムは、反転インデックスを使用したコーパステキストのサイズに関して非常にスケーラブルです。
効率的な実装を準備し、アクセス可能なWebツールを提供しています。
私たちの実験は、提案された方法(i)が1秒未満で10億スケールのコーパスで検索を実行できることを示しています。
(ii)英語と日本のワイキペディアの記事の大規模なセットから意味的に一致する有害なインスタンスを抽出できます。
(iii)非常に多様な変曲を持つ言語であるラテン語のコーパス言語分析に効果的に適用できます。

要約(オリジナル)

Researchers and practitioners in natural language processing and computational linguistics frequently observe and analyze the real language usage in large-scale corpora. For that purpose, they often employ off-the-shelf pattern-matching tools, such as grep, and keyword-in-context concordancers, which is widely used in corpus linguistics for gathering examples. Nonetheless, these existing techniques rely on surface-level string matching, and thus they suffer from the major limitation of not being able to handle orthographic variations and paraphrasing — notable and common phenomena in any natural language. In addition, existing continuous approaches such as dense vector search tend to be overly coarse, often retrieving texts that are unrelated but share similar topics. Given these challenges, we propose a novel algorithm that achieves \emph{soft} (or semantic) yet efficient pattern matching by relaxing a surface-level matching with word embeddings. Our algorithm is highly scalable with respect to the size of the corpus text utilizing inverted indexes. We have prepared an efficient implementation, and we provide an accessible web tool. Our experiments demonstrate that the proposed method (i) can execute searches on billion-scale corpora in less than a second, which is comparable in speed to surface-level string matching and dense vector search; (ii) can extract harmful instances that semantically match queries from a large set of English and Japanese Wikipedia articles; and (iii) can be effectively applied to corpus-linguistic analyses of Latin, a language with highly diverse inflections.

arxiv情報

著者 Hiroyuki Deguchi,Go Kamoda,Yusuke Matsushita,Chihiro Taguchi,Kohei Suenaga,Masaki Waga,Sho Yokoi
発行日 2025-03-05 17:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SoftMatcha: A Soft and Fast Pattern Matcher for Billion-Scale Corpus Searches はコメントを受け付けていません

Effective LLM Knowledge Learning via Model Generalization

要約

大規模な言語モデル(LLM)は、広範な世界知識を含む膨大な文書で訓練されています。
ただし、自己回帰前のトレーニングを介して知識がどのように獲得されるかはまだ十分に理解されていません。
この進化する情報には、基本的な知識のような多様な繰り返しが欠けているため、この理解の欠如は、特に最新の情報を継続するために、効果的な知識学習を非常に妨げます。
この論文では、LLMの知識学習の理解と改善に焦点を当てています。
LLMの知識学習は、自動脱退前の目標に隠された暗黙の監視されたタスクと見なされる可能性があることを発見しました。
私たちの調査結果は、LLMの知識学習が、監視されたタスクの一般化能力を改善するために設計された方法から恩恵を受けることを示唆しています。
分析に基づいて、フォーマットベースのデータ増強を提案して、分布内のサンプルを栽培しますが​​、これはテキストの言い換えとしてドキュメントに埋め込まれた事実を変更するリスクを提示しません。
また、一般化を改善するために、効果的な最適化アルゴリズムとしてSharpness-Waseの最小化を導入します。
さらに、私たちの分析と方法は、指示の調整に容易に拡張できます。
広範な実験結果は、調査結果を検証し、継続的なトレーニングと指導の調整の両方において、私たちの方法の有効性を実証します。
このペーパーでは、LLM知識学習のための効果的な戦略を解釈および設計するための新しい視点と洞察を提供します。

要約(オリジナル)

Large language models (LLMs) are trained on enormous documents that contain extensive world knowledge. However, it is still not well-understood how knowledge is acquired via autoregressive pre-training. This lack of understanding greatly hinders effective knowledge learning, especially for continued pretraining on up-to-date information, as this evolving information often lacks diverse repetitions like foundational knowledge. In this paper, we focus on understanding and improving LLM knowledge learning. We found and verified that knowledge learning for LLMs can be deemed as an implicit supervised task hidden in the autoregressive pre-training objective. Our findings suggest that knowledge learning for LLMs would benefit from methods designed to improve generalization ability for supervised tasks. Based on our analysis, we propose the formatting-based data augmentation to grow in-distribution samples, which does not present the risk of altering the facts embedded in documents as text paraphrasing. We also introduce sharpness-aware minimization as an effective optimization algorithm to better improve generalization. Moreover, our analysis and method can be readily extended to instruction tuning. Extensive experiment results validate our findings and demonstrate our methods’ effectiveness in both continued pre-training and instruction tuning. This paper offers new perspectives and insights to interpret and design effective strategies for LLM knowledge learning.

arxiv情報

著者 Mingkang Zhu,Xi Chen,Zhongdao Wang,Bei Yu,Hengshuang Zhao,Jiaya Jia
発行日 2025-03-05 17:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Effective LLM Knowledge Learning via Model Generalization はコメントを受け付けていません