Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks

要約

従来の分類アプローチは、このAI誇大広告の時代には無関係ですか?
予測モデルがLLMプロンプトベースのフレームワークを全体的に上回るマルチクラス分類の問題があることを示します。
Thumbtackの顧客が提供するHome-Serviceプロジェクトの説明からのテキストと画像が与えられた場合、各問題の説明に関連するプロフェッショナルカテゴリ(便利屋、バスルームの改造)を予測する埋め込みベースのソフトマックスモデルを構築します。
次に、最先端のLLMモデルに同じ問題を解決するように依頼するプロンプトと比較します。
埋め込みアプローチは、精度、キャリブレーション、レイテンシ、および財務コストの観点から、最高のLLMプロンプトよりも優れていることがわかります。
特に、Embeddingsアプローチは、プロンプトアプローチよりも49.5%高い精度を持ち、その優位性は、テキストのみ、画像のみ、およびテキストイメージの問題の説明にわたって一貫しています。
さらに、十分に調整された確率が得られ、後で信頼信号として使用して、展開中にコンテキスト化されたユーザーエクスペリエンスを提供します。
それどころか、スコアのプロンプトは無意味です。
最後に、埋め込みアプローチは、それぞれ画像とテキストを処理することをプロンプトするよりも14倍および81倍高速ですが、現実的な展開の仮定の下では、最大10倍安くなります。
これらの結果に基づいて、埋め込みアプローチのバリエーションを展開し、A/Bテストを通じてオフライン分析と一致するパフォーマンスを観察しました。
私たちの研究は、独自のデータセットを活用できるマルチクラス分類の問題では、埋め込みベースのアプローチが明確により良い結果をもたらす可能性があることを示しています。
したがって、科学者、実践者、エンジニア、およびビジネスリーダーは、私たちの研究を使用して誇大広告を超えて、分類ユースケースの適切な予測モデルを検討することができます。

要約(オリジナル)

Are traditional classification approaches irrelevant in this era of AI hype? We show that there are multiclass classification problems where predictive models holistically outperform LLM prompt-based frameworks. Given text and images from home-service project descriptions provided by Thumbtack customers, we build embeddings-based softmax models that predict the professional category (e.g., handyman, bathroom remodeling) associated with each problem description. We then compare against prompts that ask state-of-the-art LLM models to solve the same problem. We find that the embeddings approach outperforms the best LLM prompts in terms of accuracy, calibration, latency, and financial cost. In particular, the embeddings approach has 49.5% higher accuracy than the prompting approach, and its superiority is consistent across text-only, image-only, and text-image problem descriptions. Furthermore, it yields well-calibrated probabilities, which we later use as confidence signals to provide contextualized user experience during deployment. On the contrary, prompting scores are overly uninformative. Finally, the embeddings approach is 14 and 81 times faster than prompting in processing images and text respectively, while under realistic deployment assumptions, it can be up to 10 times cheaper. Based on these results, we deployed a variation of the embeddings approach, and through A/B testing we observed performance consistent with our offline analysis. Our study shows that for multiclass classification problems that can leverage proprietary datasets, an embeddings-based approach may yield unequivocally better results. Hence, scientists, practitioners, engineers, and business leaders can use our study to go beyond the hype and consider appropriate predictive models for their classification use cases.

arxiv情報

著者 Marios Kokkodis,Richard Demsyn-Jones,Vijay Raghavan
発行日 2025-04-09 17:15:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.AP | Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks はコメントを受け付けていません

$Π$-NeSy: A Possibilistic Neuro-Symbolic Approach

要約

この記事では、ニューラルネットワークによって実行される低レベルの知覚タスクと、可能性のあるルールベースのシステムによって実行される高レベルの推論タスクを組み合わせたニューロシンボリックアプローチを紹介します。
目標は、各入力インスタンスに対して、ターゲット(メタ)の概念に属する可能性のある程度を導き出すことができることです。
この(メタ)概念は、可能性のあるルールベースのシステムによって中間概念に接続されています。
入力インスタンスの各中間概念の確率は、ニューラルネットワークを使用して推測されます。
低レベルの知覚タスクと高レベルの推論タスクとの関係は、確率分布によってモデル化されたニューラルネットワーク出力(SoftMaxの活性化を介して)の可能性分布への変換にあります。
中間概念の使用は説明の目的に役立ちます。ルールベースのシステムを使用すると、(メタ)概念の要素としての入力インスタンスの分類は、中間概念が認識されているという事実によって正当化できます。
技術的な面から、私たちの貢献は、マトリックス関係を定義するための効率的な方法と、可能性のあるルールベースのシステムに関連する方程式システムの設計で構成されています。
対応するマトリックスと方程式は、可能性のあるルールベースのシステムから推論を実行し、トレーニングデータサンプルに従ってそのようなシステムのルールパラメーターの値を学習するために使用される重要なデータ構造です。
さらに、ファジーリレーショナル方程式の一貫性のないシステムの取り扱いに関する最近の結果を活用すると、複数のトレーニングデータサンプルに従ってルールパラメーターを学習するためのアプローチが提示されています。
MNISTの追加の問題とMNIST Sudoku Puzzlesの問題について実験が行われた実験は、最先端の神経系統的なものと比較したアプローチの有効性を強調しています。

要約(オリジナル)

In this article, we introduce a neuro-symbolic approach that combines a low-level perception task performed by a neural network with a high-level reasoning task performed by a possibilistic rule-based system. The goal is to be able to derive for each input instance the degree of possibility that it belongs to a target (meta-)concept. This (meta-)concept is connected to intermediate concepts by a possibilistic rule-based system. The probability of each intermediate concept for the input instance is inferred using a neural network. The connection between the low-level perception task and the high-level reasoning task lies in the transformation of neural network outputs modeled by probability distributions (through softmax activation) into possibility distributions. The use of intermediate concepts is valuable for the explanation purpose: using the rule-based system, the classification of an input instance as an element of the (meta-)concept can be justified by the fact that intermediate concepts have been recognized. From the technical side, our contribution consists of the design of efficient methods for defining the matrix relation and the equation system associated with a possibilistic rule-based system. The corresponding matrix and equation are key data structures used to perform inferences from a possibilistic rule-based system and to learn the values of the rule parameters in such a system according to a training data sample. Furthermore, leveraging recent results on the handling of inconsistent systems of fuzzy relational equations, an approach for learning rule parameters according to multiple training data samples is presented. Experiments carried out on the MNIST addition problems and the MNIST Sudoku puzzles problems highlight the effectiveness of our approach compared with state-of-the-art neuro-symbolic ones.

arxiv情報

著者 Ismaïl Baaj,Pierre Marquis
発行日 2025-04-09 17:16:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.LO | $Π$-NeSy: A Possibilistic Neuro-Symbolic Approach はコメントを受け付けていません

Architecture independent generalization bounds for overparametrized deep ReLU networks

要約

オーバーパラメトリングニューラルネットワークは、オーバーパラメーター化のレベルに依存しないテストエラーで一般化できることを証明します。
テストおよびトレーニングセットのメトリックジオメトリのみ、アクティベーション関数の規則性特性、およびバイアスの重みと規範の演算子基準にのみ依存する明示的な境界を証明します。
入力スペースのディメンションに囲まれたトレーニングサンプルサイズを備えたオーバーパラメトリングディープライルネットワークの場合、勾配降下を使用せずにゼロ損失ミニマイズを明示的に構築し、一般化エラーがネットワークアーキテクチャに依存しないことを証明します。

要約(オリジナル)

We prove that overparametrized neural networks are able to generalize with a test error that is independent of the level of overparametrization, and independent of the Vapnik-Chervonenkis (VC) dimension. We prove explicit bounds that only depend on the metric geometry of the test and training sets, on the regularity properties of the activation function, and on the operator norms of the weights and norms of biases. For overparametrized deep ReLU networks with a training sample size bounded by the input space dimension, we explicitly construct zero loss minimizers without use of gradient descent, and prove that the generalization error is independent of the network architecture.

arxiv情報

著者 Thomas Chen,Chun-Kai Kevin Chien,Patricia Muñoz Ewald,Andrew G. Moore
発行日 2025-04-09 17:29:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 57R70, 62M45, cs.AI, cs.LG, math.AP, math.OC, stat.ML | Architecture independent generalization bounds for overparametrized deep ReLU networks はコメントを受け付けていません

LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning

要約

パス計画は、ロボット工学と自律的なナビゲーションにおける基本的な科学的問題であり、障害を避けながら、起動ポイントから目的地までの効率的なルートの導出を必要とします。
A*やそのバリアントのような従来のアルゴリズムは、経路の妥当性を確保することができますが、状態空間が成長するにつれて重要な計算およびメモリの非効率性に苦しんでいます。
逆に、大規模な言語モデル(LLM)は、文脈的理解を通じてより広範な環境分析に優れており、環境へのグローバルな洞察を提供します。
しかし、それらは詳細な空間的および時間的推論に不足しており、多くの場合、無効または非効率的なルートにつながります。
この作業では、A*の正確な経路探索機能とLLMのグローバルな推論能力を相乗的に組み合わせる新しいLLMベースのルート計画方法であるLLM-A*を提案します。
このハイブリッドアプローチは、特に大規模なシナリオで、経路の妥当性の完全性を維持しながら、時間と空間の複雑さの点でパスファインディング効率を高めることを目的としています。
両方の方法論の強度を統合することにより、LLM-A*は、効果的なパスフィンディングに必要な妥当性を損なうことなく、従来のアルゴリズムの計算およびメモリの制限に対処します。

要約(オリジナル)

Path planning is a fundamental scientific problem in robotics and autonomous navigation, requiring the derivation of efficient routes from starting to destination points while avoiding obstacles. Traditional algorithms like A* and its variants are capable of ensuring path validity but suffer from significant computational and memory inefficiencies as the state space grows. Conversely, large language models (LLMs) excel in broader environmental analysis through contextual understanding, providing global insights into environments. However, they fall short in detailed spatial and temporal reasoning, often leading to invalid or inefficient routes. In this work, we propose LLM-A*, an new LLM based route planning method that synergistically combines the precise pathfinding capabilities of A* with the global reasoning capability of LLMs. This hybrid approach aims to enhance pathfinding efficiency in terms of time and space complexity while maintaining the integrity of path validity, especially in large-scale scenarios. By integrating the strengths of both methodologies, LLM-A* addresses the computational and memory limitations of conventional algorithms without compromising on the validity required for effective pathfinding.

arxiv情報

著者 Silin Meng,Yiwei Wang,Cheng-Fu Yang,Nanyun Peng,Kai-Wei Chang
発行日 2025-04-09 17:34:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO | LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning はコメントを受け付けていません

HalluciNot: Hallucination Detection Through Context and Common Knowledge Verification

要約

このペーパーでは、エンタープライズ設定で大規模な言語モデル(LLM)出力で幻覚を検出するための包括的なシステムを紹介します。
エンタープライズアプリケーションの幻覚に特有のLLM応答の新しい分類法を提示し、それらをコンテキストベース、一般的な知識、エンタープライズ固有、および無害な声明に分類します。
幻覚検出モデルHDM-2は、コンテキストと一般的に既知の事実(一般的な知識)の両方に関してLLM応答を検証します。
幻覚スコアと単語レベルの注釈の両方を提供し、問題のあるコンテンツの正確な識別を可能にします。
コンテキストベースと一般的な知識の幻覚でそれを評価するために、新しいデータセットhdmbenchを紹介します。
実験結果は、HDM-2がRagtruth、Truthfulqa、およびHDMBenchデータセット全体で既存のアプローチを実行することを示しています。
この作業では、計算効率、ドメインの専門化、微細粒度エラー識別など、エンタープライズ展開の特定の課題に対処します。
評価データセット、モデルの重み、および推論コードは公開されています。

要約(オリジナル)

This paper introduces a comprehensive system for detecting hallucinations in large language model (LLM) outputs in enterprise settings. We present a novel taxonomy of LLM responses specific to hallucination in enterprise applications, categorizing them into context-based, common knowledge, enterprise-specific, and innocuous statements. Our hallucination detection model HDM-2 validates LLM responses with respect to both context and generally known facts (common knowledge). It provides both hallucination scores and word-level annotations, enabling precise identification of problematic content. To evaluate it on context-based and common-knowledge hallucinations, we introduce a new dataset HDMBench. Experimental results demonstrate that HDM-2 out-performs existing approaches across RagTruth, TruthfulQA, and HDMBench datasets. This work addresses the specific challenges of enterprise deployment, including computational efficiency, domain specialization, and fine-grained error identification. Our evaluation dataset, model weights, and inference code are publicly available.

arxiv情報

著者 Bibek Paudel,Alexander Lyzhov,Preetam Joshi,Puneet Anand
発行日 2025-04-09 17:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | HalluciNot: Hallucination Detection Through Context and Common Knowledge Verification はコメントを受け付けていません

DeduCE: Deductive Consistency as a Framework to Evaluate LLM Reasoning

要約

Olympiadレベルの推論の問題での大きなパフォーマンスにもかかわらず、フロンティアの大規模な言語モデルは、標準ベンチマーク以外の新しい問題を提示すると、高校の数学に苦労する可能性があります。
最終的な精度を超えて、言語モデル(LMS)からの思考チェーン出力を分析するための演ductive的な一貫性メトリックを提案します。形成的には、演ductiveな推論には2つのサブタスクが含まれます。
提案されたメトリック研究は、これらのサブタスクでLMSのパフォーマンスを研究し、LMSの新しい問題に関する推論エラーを説明することを目標としています。LMSは、コンテキストの長さを増やすことで入力前提をどの程度理解していますか?
既存のベンチマークが記憶される可能性があるため、パイプラインを開発して、ベンチマーク問題の新規で乱したバージョンでのLMSの演ductive的な一貫性を評価します。
新しい小学校の数学の問題(GSM-8K)では、LMSは入力施設の数を増やすことに対してかなり堅牢であるが、推論ホップの数が増加するにつれて重大な精度が崩壊することがわかります。
興味深いことに、これらのエラーは、すべてのモデルがほぼ100%の精度を達成するため、元のベンチマークにマスクされています。
合成データセットを使用してソリューションステップの数を増やすにつれて、複数のホップの予測は、入力前の施設を理解することと比較して、依然として主要なエラーの原因となっています。
言語スタイルの変化や早期エラーの自然な伝播などの他の要因は、傾向を説明していません。
私たちの分析は、LMの推論を特徴付ける新しいビューを提供します – 入力施設のウィンドウと推論ホップの計算として – 問題ドメイン全体で統一された評価を提供できます。

要約(オリジナル)

Despite great performance on Olympiad-level reasoning problems, frontier large language models can still struggle on high school math when presented with novel problems outside standard benchmarks. Going beyond final accuracy, we propose a deductive consistency metric to analyze chain-of-thought output from language models (LMs).Formally, deductive reasoning involves two subtasks: understanding a set of input premises and inferring the conclusions that follow from them. The proposed metric studies LMs’ performance on these subtasks, with the goal of explaining LMs’ reasoning errors on novel problems: how well do LMs understand input premises with increasing context lengths, and how well can they infer conclusions over multiple reasoning hops? Since existing benchmarks may be memorized, we develop a pipeline to evaluate LMs’ deductive consistency on novel, perturbed versions of benchmark problems. On novel grade school math problems (GSM-8k), we find that LMs are fairly robust to increasing number of input premises, but suffer significant accuracy decay as the number of reasoning hops is increased. Interestingly, these errors are masked in the original benchmark as all models achieve near 100% accuracy. As we increase the number of solution steps using a synthetic dataset, prediction over multiple hops still remains the major source of error compared to understanding input premises. Other factors, such as shifts in language style or natural propagation of early errors do not explain the trends. Our analysis provides a new view to characterize LM reasoning — as computations over a window of input premises and reasoning hops — that can provide unified evaluation across problem domains.

arxiv情報

著者 Atharva Pandey,Kshitij Dubey,Rahul Sharma,Amit Sharma
発行日 2025-04-09 17:53:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | DeduCE: Deductive Consistency as a Framework to Evaluate LLM Reasoning はコメントを受け付けていません

Self-Steering Language Models

要約

テスト時間の推論により、言語モデルは複雑なタスクに取り組むことができますが、自然言語での検索または計画は遅く、費用がかかり、エラーが発生しやすくなります。
しかし、LMSが問題を解決するために必要な正確な推論ステップをエミュレートするのに苦労している場合でも、彼らはしばしばその抽象的な構造を説明することに優れています。
このペーパーでは、プランナーモデルがフォロワーモデルの母集団によって実行されるタスク固有の推論プログラムを生成する「自発的」LMSの方法であるDisciplを紹介します。
私たちのアプローチは、LMの推論を導く再帰検索手順を作成する機能をLMSに装備し、検証可能で効率的な推論の新しい形式を可能にします。
小さなフォロワー(ラマ-3.2-1Bなど)でインスタンス化された場合、GPT-4OやO1を含むはるかに大きなモデルを、挑戦的な制約された世代タスクと、懲戒処分が一致します(時にはアウトパフォームします)。
実行からの分離計画において、私たちの作業は、標準のベストnサンプリングを上回る、微調整を必要としない、既存のLMSによって自動的に実装できる、非常に平行化されたモンテカルロ推論戦略の設計スペースを開きます。

要約(オリジナル)

While test-time reasoning enables language models to tackle complex tasks, searching or planning in natural language can be slow, costly, and error-prone. But even when LMs struggle to emulate the precise reasoning steps needed to solve a problem, they often excel at describing its abstract structure–both how to verify solutions and how to search for them. This paper introduces DisCIPL, a method for ‘self-steering’ LMs where a Planner model generates a task-specific inference program that is executed by a population of Follower models. Our approach equips LMs with the ability to write recursive search procedures that guide LM inference, enabling new forms of verifiable and efficient reasoning. When instantiated with a small Follower (e.g., Llama-3.2-1B), DisCIPL matches (and sometimes outperforms) much larger models, including GPT-4o and o1, on challenging constrained generation tasks. In decoupling planning from execution, our work opens up a design space of highly-parallelized Monte Carlo inference strategies that outperform standard best-of-N sampling, require no finetuning, and can be implemented automatically by existing LMs.

arxiv情報

著者 Gabriel Grand,Joshua B. Tenenbaum,Vikash K. Mansinghka,Alexander K. Lew,Jacob Andreas
発行日 2025-04-09 17:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Self-Steering Language Models はコメントを受け付けていません

KG-LLM-Bench: A Scalable Benchmark for Evaluating LLM Reasoning on Textualized Knowledge Graphs

要約

知識グラフは、最新の事実の知識を大規模な言語モデル(LLM)に注入するための一般的な方法として浮上しています。
これは通常、LLMがコンテキストで処理できる知識グラフをテキストに変換することによって達成されます。
知識グラフをエンコードする複数の方法が提案されていますが、LLMパフォーマンスに対するこのテキスト化プロセスの影響は未調査のままです。
5つの知識グラフ理解タスクにまたがる包括的で拡張可能なベンチマークであるKG-LLMベンチを紹介し、さまざまなエンコード戦略がさまざまなベースモデルのパフォーマンスにどのように影響するかを評価します。
7つの言語モデルと5つのテキスト化戦略を備えた当社の広範な実験は、KG推論タスクでLLMパフォーマンスを最適化するための洞察を提供します。

要約(オリジナル)

Knowledge graphs have emerged as a popular method for injecting up-to-date, factual knowledge into large language models (LLMs). This is typically achieved by converting the knowledge graph into text that the LLM can process in context. While multiple methods of encoding knowledge graphs have been proposed, the impact of this textualization process on LLM performance remains under-explored. We introduce KG-LLM-Bench, a comprehensive and extensible benchmark spanning five knowledge graph understanding tasks, and evaluate how different encoding strategies affect performance across various base models. Our extensive experiments with seven language models and five textualization strategies provide insights for optimizing LLM performance on KG reasoning tasks.

arxiv情報

著者 Elan Markowitz,Krupa Galiya,Greg Ver Steeg,Aram Galstyan
発行日 2025-04-09 17:58:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | KG-LLM-Bench: A Scalable Benchmark for Evaluating LLM Reasoning on Textualized Knowledge Graphs はコメントを受け付けていません

AssistanceZero: Scalably Solving Assistance Games

要約

支援ゲームは、AIアシスタントのトレーニングのための人間のフィードバック(RLHF)からの強化学習の有望な代替手段です。
アシスタンスゲームは、アシスタントとユーザーの間の相互作用を2プレイヤーゲームとして共有する目標を観察できない2人のゲームとして明示的にモデル化することにより、欺ceptiveな行動のインセンティブなど、RLHFの重要な欠点を解決します。
その可能性にもかかわらず、アシスタンスゲームは簡単な設定でのみ調査されています。
不確実性の下で扱いにくい意思決定の問題を解決することと、人間のユーザーの行動を正確にモデル化する必要があるため、より複雑な環境にそれらをスケーリングすることは困難です。
支援ゲームを解決するための最初のスケーラブルなアプローチを提示し、10ドル以上の目標を達成した新しい、挑戦的なMinecraftベースの支援ゲームに適用します。
私たちのアプローチであるAssistanceZeroは、人間の行動と報酬を予測するニューラルネットワークでAlphazeroを拡張し、不確実性の下で計画できるようにします。
AssistanceZeroは、Minecraftベースの支援ゲームでモデルのないRLアルゴリズムと模倣学習を上回ることを示しています。
人間の研究では、私たちの支援訓練を受けたアシスタントは、参加者がMinecraftの構築タスクを完了するために取るアクションの数を大幅に削減します。
私たちの結果は、アシスタンスゲームが複雑な環境で効果的なAIアシスタントをトレーニングするための扱いやすいフレームワークであることを示唆しています。
当社のコードとモデルは、https://github.com/cassidylaidlaw/minecraft-building-assistanceゲームで入手できます。

要約(オリジナル)

Assistance games are a promising alternative to reinforcement learning from human feedback (RLHF) for training AI assistants. Assistance games resolve key drawbacks of RLHF, such as incentives for deceptive behavior, by explicitly modeling the interaction between assistant and user as a two-player game where the assistant cannot observe their shared goal. Despite their potential, assistance games have only been explored in simple settings. Scaling them to more complex environments is difficult because it requires both solving intractable decision-making problems under uncertainty and accurately modeling human users’ behavior. We present the first scalable approach to solving assistance games and apply it to a new, challenging Minecraft-based assistance game with over $10^{400}$ possible goals. Our approach, AssistanceZero, extends AlphaZero with a neural network that predicts human actions and rewards, enabling it to plan under uncertainty. We show that AssistanceZero outperforms model-free RL algorithms and imitation learning in the Minecraft-based assistance game. In a human study, our AssistanceZero-trained assistant significantly reduces the number of actions participants take to complete building tasks in Minecraft. Our results suggest that assistance games are a tractable framework for training effective AI assistants in complex environments. Our code and models are available at https://github.com/cassidylaidlaw/minecraft-building-assistance-game.

arxiv情報

著者 Cassidy Laidlaw,Eli Bronstein,Timothy Guo,Dylan Feng,Lukas Berglund,Justin Svegliato,Stuart Russell,Anca Dragan
発行日 2025-04-09 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | AssistanceZero: Scalably Solving Assistance Games はコメントを受け付けていません

Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning

要約

大規模な言語モデル(LLMS)での継続的な学習は、壊滅的な忘却を受けやすく、新しいタスクに適応すると、以前に学んだタスクのパフォーマンスが大幅に低下します。
既存の方法は通常、モデルの表現性を制限し、タスクごとに追加のパラメーターを導入する低ランクのパラメーター効率の高い更新に依存し、スケーラビリティの問題につながります。
これらの制限に対処するために、適応型特異値分解(SVD)を活用する新しい継続的な完全な微調整アプローチを提案します。
この方法は、タスク固有の低ランクパラメーターサブスペースを動的に識別し、更新を制約して、以前のタスクに関連する重要な方向に直交するように制約し、追加のパラメーターオーバーヘッドまたは以前のタスクグラデーションを保存せずに干渉を効果的に最小限に抑えます。
分類、生成、推論を含む多様なタスクにまたがる、エンコーダデコーダー(T5-Large)とデコーダーのみ(LLAMA-2 7B)モデルの両方を使用して、標準の継続学習ベンチマークでアプローチを広範囲に評価します。
経験的に、私たちの方法は、O-Loraのような最近のベースラインよりも最大7%の平均精度を達成し、特に忘れが緩和されないレベルに近づくことを減らすことにより、モデルの一般的な言語能力、指導中の精度、および継続的な学習プロセス全体の安全性を顕著に維持します。
当社の適応型SVDフレームワークは、モデルの可塑性と知識保持のバランスを効果的にバランスさせ、大規模な言語モデルの継続的な学習シナリオのための実用的で理論的に根拠があり、計算的にスケーラブルなソリューションを提供します。

要約(オリジナル)

Continual learning in large language models (LLMs) is prone to catastrophic forgetting, where adapting to new tasks significantly degrades performance on previously learned ones. Existing methods typically rely on low-rank, parameter-efficient updates that limit the model’s expressivity and introduce additional parameters per task, leading to scalability issues. To address these limitations, we propose a novel continual full fine-tuning approach leveraging adaptive singular value decomposition (SVD). Our method dynamically identifies task-specific low-rank parameter subspaces and constrains updates to be orthogonal to critical directions associated with prior tasks, thus effectively minimizing interference without additional parameter overhead or storing previous task gradients. We evaluate our approach extensively on standard continual learning benchmarks using both encoder-decoder (T5-Large) and decoder-only (LLaMA-2 7B) models, spanning diverse tasks including classification, generation, and reasoning. Empirically, our method achieves state-of-the-art results, up to 7% higher average accuracy than recent baselines like O-LoRA, and notably maintains the model’s general linguistic capabilities, instruction-following accuracy, and safety throughout the continual learning process by reducing forgetting to near-negligible levels. Our adaptive SVD framework effectively balances model plasticity and knowledge retention, providing a practical, theoretically grounded, and computationally scalable solution for continual learning scenarios in large language models.

arxiv情報

著者 Nikhil Shivakumar Nayak,Krishnateja Killamsetty,Ligong Han,Abhishek Bhandwaldar,Prateek Chanda,Kai Xu,Hao Wang,Aldo Pareja,Oleg Silkin,Mustafa Eyceoz,Akash Srivastava
発行日 2025-04-09 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, G.3, math.PR, stat.ML | Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning はコメントを受け付けていません