Towards Foundation Models for Mixed Integer Linear Programming

要約

混合整数線形プログラミング(MILP)は、複雑な意思決定の問題をモデル化するために不可欠ですが、計算の扱いやすさの課題に直面しており、専門家の定式化が必要です。
MILPの現在の深い学習アプローチは、特定の問題クラスに焦点を当てており、目に見えないクラスに一般化しません。
この欠点に対処するために、ファンデーションモデルトレーニングアプローチを採用しています。ここでは、MILP問題の多様なセットに関する単一の深い学習モデルをトレーニングして、問題クラス全体で一般化します。
MILPの既存のデータセットには多様性とボリュームがないため、無制限のインスタンスで多様なMILPクラスの大規模なセットを生成できる新しいLLMベースの進化フレームワークであるMILP-EVOLVEを紹介します。
MILPの多様な側面をキャプチャする3つの重要な学習タスクに関する方法論を研究します。(1)積分ギャップ予測、(2)分岐の学習、および(3)MILPインスタンスを自然言語の説明と整列させる新しいタスク。
私たちの経験的結果は、MILP-EVOLVEによって生成されたデータでトレーニングされたモデルが、Miplibベンチマークを含む目に見えない問題について大幅な改善を達成することを示しています。
私たちの研究は、幅広いMILPアプリケーションに一般化できるMILPの基礎モデルアプローチに移行する可能性を強調しています。
私たちのコードとデータは、https://github.com/microsoft/optiguideで公開されています。

要約(オリジナル)

Mixed Integer Linear Programming (MILP) is essential for modeling complex decision-making problems but faces challenges in computational tractability and requires expert formulation. Current deep learning approaches for MILP focus on specific problem classes and do not generalize to unseen classes. To address this shortcoming, we take a foundation model training approach, where we train a single deep learning model on a diverse set of MILP problems to generalize across problem classes. As existing datasets for MILP lack diversity and volume, we introduce MILP-Evolve, a novel LLM-based evolutionary framework that is capable of generating a large set of diverse MILP classes with an unlimited amount of instances. We study our methodology on three key learning tasks that capture diverse aspects of MILP: (1) integrality gap prediction, (2) learning to branch, and (3) a new task of aligning MILP instances with natural language descriptions. Our empirical results show that models trained on the data generated by MILP-Evolve achieve significant improvements on unseen problems, including MIPLIB benchmarks. Our work highlights the potential of moving towards a foundation model approach for MILP that can generalize to a broad range of MILP applications. Our code and data are publicly available at https://github.com/microsoft/OptiGuide.

arxiv情報

著者 Sirui Li,Janardhan Kulkarni,Ishai Menache,Cathy Wu,Beibin Li
発行日 2025-02-21 18:00:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Towards Foundation Models for Mixed Integer Linear Programming はコメントを受け付けていません

Sparks of cognitive flexibility: self-guided context inference for flexible stimulus-response mapping by attentional routing

要約

柔軟な認知は、刺激反応のマッピングを迅速に適応させるために、隠されたルールを発見する必要があります。
標準的なニューラルネットワークは、迅速でコンテキスト駆動型の再マッピングを必要とするタスクで闘っています。
最近、Hummos(2023)は、この不足を軽減するために高速とスローの学習アルゴリズムを導入しましたが、複雑で画像コンポータブルのタスクに対するスケーラビリティは不明でした。
ここでは、ウィスコンシンニューラルネットワーク(WINN)を提案します。これは、柔軟なルールベースの動作を要求する現実世界のタスクの高速学習を拡張します。
WINNは、関連する機能に注意を向ける調整可能な「コンテキスト状態」と組み合わせて、視力の前の畳み込みニューラルネットワークを採用しています。
Winnが誤った応答を生成する場合、最初にコンテキスト状態を繰り返し更新して、タスク関連のキューに注意を向け、次に最小限のパラメーター更新を実行して、注意と読み出しレイヤーを実行します。
この戦略は、感覚ネットワーク内の一般化可能な表現を保持し、壊滅的な忘却を減らします。
ウィスコンシンカードソートタスクの画像ベースの拡張でWinnを評価し、認知的柔軟性のいくつかのマーカーを明らかにします。
更新、(iii)注意と読み出しパラメーターのゆっくりした更新によって強化されたコンテキスト状態の調整を介してのみコンテキストベースのルール推論を実行できます(iv)
コンテキスト状態の推論のみを通じて、目に見えない構成ルールに一般化します。
ターゲットの注意ガイダンスと高速コンテキストの推論をブレンドすることにより、Winnは柔軟性の「スパーク」を達成します。
このアプローチは、複雑なルールベースのタスクに迅速に適応しながら知識を保持するコンテキストに敏感なモデルへの道を提供します。

要約(オリジナル)

Flexible cognition demands discovering hidden rules to quickly adapt stimulus-response mappings. Standard neural networks struggle in tasks requiring rapid, context-driven remapping. Recently, Hummos (2023) introduced a fast-and-slow learning algorithm to mitigate this shortfall, but its scalability to complex, image-computable tasks was unclear. Here, we propose the Wisconsin Neural Network (WiNN), which expands on fast-and-slow learning for real-world tasks demanding flexible rule-based behavior. WiNN employs a pretrained convolutional neural network for vision, coupled with an adjustable ‘context state’ that guides attention to relevant features. If WiNN produces an incorrect response, it first iteratively updates its context state to refocus attention on task-relevant cues, then performs minimal parameter updates to attention and readout layers. This strategy preserves generalizable representations in the sensory network, reducing catastrophic forgetting. We evaluate WiNN on an image-based extension of the Wisconsin Card Sorting Task, revealing several markers of cognitive flexibility: (i) WiNN autonomously infers underlying rules, (ii) requires fewer examples to do so than control models reliant on large-scale parameter updates, (iii) can perform context-based rule inference solely via context-state adjustments-further enhanced by slow updates of attention and readout parameters, and (iv) generalizes to unseen compositional rules through context-state inference alone. By blending fast context inference with targeted attentional guidance, WiNN achieves ‘sparks’ of flexibility. This approach offers a path toward context-sensitive models that retain knowledge while rapidly adapting to complex, rule-based tasks.

arxiv情報

著者 Rowan Sommers,Sushrut Thorat,Daniel Anthes,Tim C. Kietzmann
発行日 2025-02-21 18:03:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC | Sparks of cognitive flexibility: self-guided context inference for flexible stimulus-response mapping by attentional routing はコメントを受け付けていません

SpinSVAR: Estimating Structural Vector Autoregression Assuming Sparse Input

要約

Spinsvarを紹介します。これは、スパース入力仮定の下で、時系列データから構造ベクトル自己網取り(SVAR)を推定するための新しい方法です。
ガウスノイズを使用した以前のアプローチとは異なり、入力を独立したラプラシアン変数としてモデル化し、スパースを強制し、最小絶対誤差回帰に基づいて最尤推定量(MLE)を生成します。
軽度の仮定の下で、MLEの理論的一貫性保証を提供します。
Spinsvarは効率的です。GPU加速度を活用して、数千のノードにスケーリングできます。
LaplacianまたはBernoulli-Uniformの入力を備えた合成データでは、Spinsvarは精度とランタイムの最新の方法よりも優れています。
S&P 500データに適用されると、セクターごとに在庫をクラスターし、主要な価格の動きに関連する重要な構造ショックを特定し、まばらな入力仮定の実行可能性を実証します。

要約(オリジナル)

We introduce SpinSVAR, a novel method for estimating a structural vector autoregression (SVAR) from time-series data under sparse input assumption. Unlike prior approaches using Gaussian noise, we model the input as independent Laplacian variables, enforcing sparsity and yielding a maximum likelihood estimator (MLE) based on least absolute error regression. We provide theoretical consistency guarantees for the MLE under mild assumptions. SpinSVAR is efficient: it can leverage GPU acceleration to scale to thousands of nodes. On synthetic data with Laplacian or Bernoulli-uniform inputs, SpinSVAR outperforms state-of-the-art methods in accuracy and runtime. When applied to S&P 500 data, it clusters stocks by sectors and identifies significant structural shocks linked to major price movements, demonstrating the viability of our sparse input assumption.

arxiv情報

著者 Panagiotis Misiakos,Markus Püschel
発行日 2025-02-21 18:04:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | SpinSVAR: Estimating Structural Vector Autoregression Assuming Sparse Input はコメントを受け付けていません

Training Neural ODEs Using Fully Discretized Simultaneous Optimization

要約

ニューラルの通常の微分方程式(ニューラルODE)は、ニューラルネットワークを使用した連続時間ダイナミクスを表し、モデリングと制御タスクの進歩を提供します。
ただし、ニューラルオードのトレーニングには、各エポックで微分方程式を解く必要があり、高い計算コストにつながります。
この作業は、より高速なトレーニングの代替手段として同時に最適化方法を調査します。
特に、コロケーションベースの完全に離散化された定式化を採用し、コロケーション係数とニューラルネットワークパラメーターを同時に最適化するために、大規模な非線形最適化のソルバーであるIPOPTを使用します。
ケーススタディとしてファンデルポールオシレーターを使用して、従来のトレーニング方法と比較してより速い収束を示します。
さらに、データバッチ間でサブモデルを効果的に調整するために、乗数の交互方向方法(ADMM)を使用した分解フレームワークを導入します。
私たちの結果は、(コロケーションベースの)同時の神経オードトレーニングパイプラインの重要な可能性を示しています。

要約(オリジナル)

Neural Ordinary Differential Equations (Neural ODEs) represent continuous-time dynamics with neural networks, offering advancements for modeling and control tasks. However, training Neural ODEs requires solving differential equations at each epoch, leading to high computational costs. This work investigates simultaneous optimization methods as a faster training alternative. In particular, we employ a collocation-based, fully discretized formulation and use IPOPT–a solver for large-scale nonlinear optimization–to simultaneously optimize collocation coefficients and neural network parameters. Using the Van der Pol Oscillator as a case study, we demonstrate faster convergence compared to traditional training methods. Furthermore, we introduce a decomposition framework utilizing Alternating Direction Method of Multipliers (ADMM) to effectively coordinate sub-models among data batches. Our results show significant potential for (collocation-based) simultaneous Neural ODE training pipelines.

arxiv情報

著者 Mariia Shapovalova,Calvin Tsay
発行日 2025-02-21 18:10:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Training Neural ODEs Using Fully Discretized Simultaneous Optimization はコメントを受け付けていません

Predicting gene essentiality and drug response from perturbation screens in preclinical cancer models with LEAP: Layered Ensemble of Autoencoders and Predictors

要約

遺伝的、化学的、または環境的摂動の影響が疾患モデルで体系的にテストされている前臨床摂動スクリーンは、その規模と因果的性質のために機械学習強化された薬物発見に大きな有望を抱えています。
予測モデルは、分子プロファイルに基づいて、以前にテストされていない疾患モデルの摂動応答を推測できます。
これらのシリコラベルは、データベースを拡張し、実験的な優先順位付けを導くことができます。
ただし、摂動固有の効果をモデリングし、多様な生物学的コンテキスト全体で堅牢な予測性能を生成することはとらえどころのないままです。
堅牢性と一般化を改善するための新しいアンサンブルフレームワークであるLeap(自動エンコーダーと予測子の層状アンサンブル)を紹介します。
LEAPは、複数のダマ(データ増強されたマスクされた自動エンコーダー)表現とラッソレグレッサーを活用します。
さまざまなランダム初期化から学んだ多様な遺伝子発現表現モデルを組み合わせることにより、LEAPは、目に見えない細胞株、組織、疾患モデルの遺伝子の本質または薬物応答を予測する際に一貫して最先端のアプローチを上回ります。
特に、我々の結果は、予測モデルだけでなく、アンサンミング表現モデルが優れた予測パフォーマンスをもたらすことを示しています。
パフォーマンスの向上を超えて、LEAPは計算上効率的であり、最小限のハイパーパラメーターチューニングを必要とするため、有望なターゲットに優先順位を付け、バイオマーカー駆動型の層別化をサポートするために、創薬パイプラインに容易に組み込むことができます。
この作業で使用されているコードとデータセットは、公開されています。

要約(オリジナル)

Preclinical perturbation screens, where the effects of genetic, chemical, or environmental perturbations are systematically tested on disease models, hold significant promise for machine learning-enhanced drug discovery due to their scale and causal nature. Predictive models can infer perturbation responses for previously untested disease models based on molecular profiles. These in silico labels can expand databases and guide experimental prioritization. However, modelling perturbation-specific effects and generating robust prediction performances across diverse biological contexts remain elusive. We introduce LEAP (Layered Ensemble of Autoencoders and Predictors), a novel ensemble framework to improve robustness and generalization. LEAP leverages multiple DAMAE (Data Augmented Masked Autoencoder) representations and LASSO regressors. By combining diverse gene expression representation models learned from different random initializations, LEAP consistently outperforms state-of-the-art approaches in predicting gene essentiality or drug responses in unseen cell lines, tissues and disease models. Notably, our results show that ensembling representation models, rather than prediction models alone, yields superior predictive performance. Beyond its performance gains, LEAP is computationally efficient, requires minimal hyperparameter tuning and can therefore be readily incorporated into drug discovery pipelines to prioritize promising targets and support biomarker-driven stratification. The code and datasets used in this work are made publicly available.

arxiv情報

著者 Barbara Bodinier,Gaetan Dissez,Linus Bleistein,Antonin Dauvin
発行日 2025-02-21 18:12:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Predicting gene essentiality and drug response from perturbation screens in preclinical cancer models with LEAP: Layered Ensemble of Autoencoders and Predictors はコメントを受け付けていません

Packet Inspection Transformer: A Self-Supervised Journey to Unseen Malware Detection with Few Samples

要約

ネットワークが拡大し続け、より相互接続されるにつれて、新しいマルウェア検出方法の必要性がより顕著になります。
従来のセキュリティ対策は、現代のサイバー攻撃の洗練度に対してますます不十分になっています。
ディープパケット検査(DPI)は、ネットワークセキュリティの強化において極めて重要であり、従来の監視手法を上回るネットワークトラフィックの詳細な分析を提供しています。
DPIは、ネットワークパケットのメタデータを調べるだけでなく、パケットペイロード内で運ばれる実際のコンテンツに分かれ、ネットワークを介して流れるデータの包括的なビューを提供します。
DPIとの高度なディープラーニング技術の統合により、マルウェア検出とネットワークトラフィック分類に最新の方法論が導入されましたが、最先端の監視された学習アプローチは、大量の注釈付きデータに依存し、新規に一般化できないことにより制限されます。
、目に見えないマルウェアの脅威。
これらの制限に対処するために、このペーパーでは、自己教師の学習(SSL)および少数のショット学習(FSL)の最近の進歩を活用しています。
提案された自己監視アプローチは、SSLを介して変圧器を訓練して、パケットの一部をマスキングすることにより、膨大な量の非標識データから、ペイロードを含むパケットコンテンツの埋め込みを学習し、さまざまなダウンストリームタスクに一般化する学習表現につながります。
表現がパケットから抽出されると、マルウェア検出アルゴリズムのトレーニングに使用されます。
次に、トランスから得られた表現を使用して、少ないショット学習アプローチを使用して、マルウェア検出器を新しいタイプの攻撃に適応させます。
私たちの実験結果は、我々の方法がUNSW-NB15データセットで最大94.76%、CIC-OIT23データセットで83.25%の分類精度を達成することを示しています。

要約(オリジナル)

As networks continue to expand and become more interconnected, the need for novel malware detection methods becomes more pronounced. Traditional security measures are increasingly inadequate against the sophistication of modern cyber attacks. Deep Packet Inspection (DPI) has been pivotal in enhancing network security, offering an in-depth analysis of network traffic that surpasses conventional monitoring techniques. DPI not only examines the metadata of network packets, but also dives into the actual content being carried within the packet payloads, providing a comprehensive view of the data flowing through networks. While the integration of advanced deep learning techniques with DPI has introduced modern methodologies into malware detection and network traffic classification, state-of-the-art supervised learning approaches are limited by their reliance on large amounts of annotated data and their inability to generalize to novel, unseen malware threats. To address these limitations, this paper leverages the recent advancements in self-supervised learning (SSL) and few-shot learning (FSL). Our proposed self-supervised approach trains a transformer via SSL to learn the embedding of packet content, including payload, from vast amounts of unlabeled data by masking portions of packets, leading to a learned representation that generalizes to various downstream tasks. Once the representation is extracted from the packets, they are used to train a malware detection algorithm. The representation obtained from the transformer is then used to adapt the malware detector to novel types of attacks using few-shot learning approaches. Our experimental results demonstrate that our method achieves classification accuracies of up to 94.76% on the UNSW-NB15 dataset and 83.25% on the CIC-IoT23 dataset.

arxiv情報

著者 Kyle Stein,Arash Mahyari,Guillermo Francia III,Eman El-Sheikh
発行日 2025-02-21 18:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Packet Inspection Transformer: A Self-Supervised Journey to Unseen Malware Detection with Few Samples はコメントを受け付けていません

Testing the limits of fine-tuning to improve reasoning in vision language models

要約

事前に訓練されたビジョン言語モデルは、まだ人間の視覚認識に及ばない。
視覚的認知を改善し、モデルを人間の行動に合わせるために、視覚的刺激と視覚的認知タスクに関する人間の判断を導入し、一貫した環境で認知ドメイン全体のパフォーマンスを体系的に評価できるようにします。
直感的な物理学と因果的推論のグラウンドトゥルースデータのモデルを微調整し、それがそれぞれの微調整ドメインでモデルのパフォーマンスを改善することを発見します。
さらに、人間の行動とのモデルの整合性を改善することができます。
ただし、微調整は、他の視覚特性を備えたデータや他の認知ドメインのタスクに堅牢な人間のような一般化に寄与しないことがわかります。

要約(オリジナル)

Pre-trained vision language models still fall short of human visual cognition. In an effort to improve visual cognition and align models with human behavior, we introduce visual stimuli and human judgments on visual cognition tasks, allowing us to systematically evaluate performance across cognitive domains under a consistent environment. We fine-tune models on ground truth data for intuitive physics and causal reasoning and find that this improves model performance in the respective fine-tuning domain. Furthermore, it can improve model alignment with human behavior. However, we find that fine-tuning does not contribute to robust human-like generalization to data with other visual characteristics or to tasks in other cognitive domains.

arxiv情報

著者 Luca M. Schulze Buschoff,Konstantinos Voudouris,Elif Akata,Matthias Bethge,Joshua B. Tenenbaum,Eric Schulz
発行日 2025-02-21 18:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Testing the limits of fine-tuning to improve reasoning in vision language models はコメントを受け付けていません

ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models

要約

大規模な言語モデル(LLM)は、解釈的および推論的精度を必要とするタスクでますます使用されています。
この論文では、明示的な因果推論でLLMを評価するための新しいデータセットであるExplicaを紹介します。
Explicaは、さまざまな言語順序で提示され、言語接続によって明示的に表現される因果関係と時間的関係の両方を独自に統合します。
データセットには、クラウドソーシングの人間の受容性評価が豊富です。
プロンプトと困惑ベースのメトリックを通じて、ExplicaでLLMSをテストしました。
7つのコマーシャルおよびオープンソースLLMSを評価し、トップモデルでさえ0.80の精度に達するのに苦労していることが明らかになりました。
興味深いことに、モデルは因果関係のある関係と時間的関係を混乱させる傾向があり、そのパフォーマンスは、イベントの言語順序によっても強く影響されます。
最後に、困惑ベースのスコアとプロンプトのパフォーマンスは、モデルサイズによって異なる影響を受けます。

要約(オリジナル)

Large Language Models (LLMs) are increasingly used in tasks requiring interpretive and inferential accuracy. In this paper, we introduce ExpliCa, a new dataset for evaluating LLMs in explicit causal reasoning. ExpliCa uniquely integrates both causal and temporal relations presented in different linguistic orders and explicitly expressed by linguistic connectives. The dataset is enriched with crowdsourced human acceptability ratings. We tested LLMs on ExpliCa through prompting and perplexity-based metrics. We assessed seven commercial and open-source LLMs, revealing that even top models struggle to reach 0.80 accuracy. Interestingly, models tend to confound temporal relations with causal ones, and their performance is also strongly influenced by the linguistic order of the events. Finally, perplexity-based scores and prompting performance are differently affected by model size.

arxiv情報

著者 Martina Miliani,Serenna Auriemma,Alessandro Bondielli,Emmanuele Chersoni,Lucia Passaro,Irene Sucameli,Alessandro Lenci
発行日 2025-02-21 14:23:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T50, cs.AI, cs.CL, I.2.7 | ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models はコメントを受け付けていません

Iterative Repair with Weak Verifiers for Few-shot Transfer in KBQA with Unanswerability

要約

KBQAの実際のアプリケーションでは、ドメイン内のラベルのあるトレーニングデータが限られているため、未回答の質問を処理するモデルが必要です。
KBQAの少数のショット転送の新しいタスクを、未回答の質問で提案し、パフォーマンス評価のために2つの新しいデータセットを提供します。
Fun-Fusic-AntableのみのKBQAの最先端の少数の転送モデルであるFusic KBQAを拡張するタスクの新しいソリューションです。
まず、Fusic-KBQAの反復修復は、すべての質問が答えられないという強い仮定を持っていることに注意してください。
救済策として、強力で弱い検証剤のスイートからのフィードバックを使用して反復的な修理を使用し、未回答の回答性のための自己一貫性の適応を使用して、質問の回答性をよりよく評価するためのフィードバック(Fun)のフィードバックを提案します。
私たちの実験は、ファンフュージックがタスクに対する複数のLLMベースのSOTAモデルの適切な適応を大幅に上回ることを示しています。

要約(オリジナル)

Real-world applications of KBQA require models to handle unanswerable questions with a limited volume of in-domain labeled training data. We propose the novel task of few-shot transfer for KBQA with unanswerable questions and contribute two new datasets for performance evaluation. We present FUn-FuSIC – a novel solution for our task that extends FuSIC KBQA, the state-of-the-art few-shot transfer model for answerable-only KBQA. We first note that FuSIC-KBQA’s iterative repair makes a strong assumption that all questions are unanswerable. As a remedy, we propose Feedback for Unanswerability (FUn), which uses iterative repair using feedback from a suite of strong and weak verifiers, and an adaptation of self consistency for unanswerabilty to better assess the answerability of a question. Our experiments show that FUn-FuSIC significantly outperforms suitable adaptations of multiple LLM based and supervised SoTA models on our task, while establishing a new SoTA for answerable few-shot transfer as well.

arxiv情報

著者 Riya Sawhney,Samrat Yadav,Indrajit Bhattacharya,Mausam
発行日 2025-02-21 14:35:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Iterative Repair with Weak Verifiers for Few-shot Transfer in KBQA with Unanswerability はコメントを受け付けていません

How does a Language-Specific Tokenizer affect LLMs?

要約

言語固有のトークンザーの必要性は、効果的な自然言語処理には直感的に重要に見えますが、その重要性と根本的な理由に関する経験的分析は欠けています。
この研究では、言語固有のトークナーザーが、韓国語のケーススタディを通じて、英語のテキストデータで主に訓練された大規模な言語モデルの行動にどのように影響するかを探ります。
この研究は、2つの主要な段階で展開されています。(1)韓国固有の拡張トークニャー剤の開発と(2)モデルと基本的なトークン剤と拡張トークンザーをさまざまな次のトークン予測タスクで比較する実験。
詳細な分析により、拡張されたトークン剤は、生成中の誤った予測に対する信頼性を低下させ、複雑なタスクの交差体を減少させ、無意味な出力が少ない傾向を示していることが明らかになりました。
Consequently, the extended tokenizer provides stability during generation, potentially leading to higher performance in downstream tasks.

要約(オリジナル)

The necessity of language-specific tokenizers intuitively appears crucial for effective natural language processing, yet empirical analyses on their significance and underlying reasons are lacking. This study explores how language-specific tokenizers influence the behavior of Large Language Models predominantly trained with English text data, through the case study of Korean. The research unfolds in two main stages: (1) the development of a Korean-specific extended tokenizer and (2) experiments to compare models with the basic tokenizer and the extended tokenizer through various Next Token Prediction tasks. Our in-depth analysis reveals that the extended tokenizer decreases confidence in incorrect predictions during generation and reduces cross-entropy in complex tasks, indicating a tendency to produce less nonsensical outputs. Consequently, the extended tokenizer provides stability during generation, potentially leading to higher performance in downstream tasks.

arxiv情報

著者 Jean Seo,Jaeyoon Kim,SungJoo Byun,Hyopil Shin
発行日 2025-02-21 14:41:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How does a Language-Specific Tokenizer affect LLMs? はコメントを受け付けていません