Enhanced uncertainty quantification variational autoencoders for the solution of Bayesian inverse problems

要約

他の用途の中でも、ニューラルネットワークは、リアルタイムで決定論的およびベイジアンの逆の問題を解決するための強力なツールです。
ベイジアンフレームワークでは、特殊なタイプのニューラルネットワークである変分自動エンコーダーは、モデルパラメーターの推定と、リアルタイムの逆不確実性の定量化を実行できる観測データに基づいてその分布を可能にします。
この作業では、ベイジアンの逆問題のための変分自動エンコーダーを訓練するための新しい損失関数を提案することにより、既存の研究[Goh、H。et al。、Proceedings of Machine Learning Research、2022]に基づいています。
フォワードマップがアフィンである場合、モデルパラメーターの事後分布に変分自動エンコーダーの潜在状態の収束の理論的証明を提供します。
数値テストを通じてこの理論的結果を検証し、提案されている変動自動エンコーダーを文献の既存の自動エンコーダーと比較します。
最後に、ラプラス方程式で提案されている変異オートエンコーダーをテストします。

要約(オリジナル)

Among other uses, neural networks are a powerful tool for solving deterministic and Bayesian inverse problems in real-time. In the Bayesian framework, variational autoencoders, a specialized type of neural network, enable the estimation of model parameters and their distribution based on observational data allowing to perform real-time inverse uncertainty quantification. In this work, we build upon existing research [Goh, H. et al., Proceedings of Machine Learning Research, 2022] by proposing a novel loss function to train variational autoencoders for Bayesian inverse problems. When the forward map is affine, we provide a theoretical proof of the convergence of the latent states of variational autoencoders to the posterior distribution of the model parameters. We validate this theoretical result through numerical tests and we compare the proposed variational autoencoder with the existing one in the literature. Finally, we test the proposed variational autoencoder on the Laplace equation.

arxiv情報

著者 Andrea Tonini,Luca Dede’
発行日 2025-02-18 18:17:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA | Enhanced uncertainty quantification variational autoencoders for the solution of Bayesian inverse problems はコメントを受け付けていません

MLPs at the EOC: Dynamics of Feature Learning

要約

カーネルレジームの無限に広いニューラルネットワークはランダムな特徴モデルであるため、現代の深い学習の成功は豊かな体制にあります。そこでは、満足のいく理論では、勾配降下の収束だけでなく、途中で特徴の学習を説明する必要があります。
このような理論は、安定性(EOS)やカタパルトメカニズムなどの実践者によって観察される現象も対象とする必要があります。
限界における実質的に関連する理論の場合、ニューラルネットワークのパラメーター化は、幅と深さが拡大されるため、制限動作を効率的に再現する必要があります。
幅ワイズスケーリングはほとんど沈殿しますが、深さのスケーリングは、カオスの端(EOC)による初期化時にのみ解決されます。
トレーニング中、スケールアップの深さは、学習率を反比例させるか、残留接続を追加することによって行われます。
$(1)$ $ $が正規化された更新パラメーター化($ \ nu $ p)を提案して、事前活性化の正規化された進化を誘導する隠されたレイヤーサイズを拡大することによりこの問題を解決することを提案します。
新規および累積パラメーターの更新と$(3)$ $(カタパルトフェーズを無期限に延長できるジオメトリ認識学習率スケジュール)。
私たちは仮説をサポートし、経験的証拠による$ \ nu $ pの有用性と学習率のスケジュールを実証します。

要約(オリジナル)

Since infinitely wide neural networks in the kernel regime are random feature models, the success of contemporary deep learning lies in the rich regime, where a satisfying theory should explain not only the convergence of gradient descent but the learning of features along the way. Such a theory should also cover phenomena observed by practicioners including the Edge of Stability (EOS) and the catapult mechanism. For a practically relevant theory in the limit, neural network parameterizations have to efficiently reproduce limiting behavior as width and depth are scaled up. While widthwise scaling is mostly settled, depthwise scaling is solved only at initialization by the Edge of Chaos (EOC). During training, scaling up depth is either done by inversely scaling the learning rate or adding residual connections. We propose $(1)$ the Normalized Update Parameterization ($\nu$P) to solve this issue by growing hidden layer sizes depthwise inducing the regularized evolution of preactivations, $(2)$ a hypothetical explanation for feature learning via the cosine of new and cumulative parameter updates and $(3)$ a geometry-aware learning rate schedule that is able to prolong the catapult phase indefinitely. We support our hypotheses and demonstrate the usefulness of $\nu$P and the learning rate schedule by empirical evidence.

arxiv情報

著者 Dávid Terjék
発行日 2025-02-18 18:23:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.LG | MLPs at the EOC: Dynamics of Feature Learning はコメントを受け付けていません

Constrained Online Convex Optimization with Polyak Feasibility Steps

要約

この作業では、固定制約関数$ g:\ mathbb {r}^d \ rightarrow \ mathbb {r} $を使用して、オンライン凸の最適化を研究します。
この問題に関する以前の研究は、$ o(\ sqrt {t})$後悔と累積制約満足度$ \ sum_ {t = 1}^{t} g(x_t)\ leq 0 $を示していますが、制約値とアクセスのみにアクセスします。
再生アクション$ g(x_t)、\ partial g(x_t)$でのサブグラディエント。
同じ制約情報を使用して、いつでも制約満足度$ g(x_t)\ leq 0 \ \ forall t \ in [t] $のより強力な保証を示し、$ o(\ sqrt {t})$後悔保証を一致させます。
これらの貢献は、後悔を犠牲にすることなく、制約の満足度を確保するためにPolyAKの実現可能性の手順を使用するというアプローチのおかげです。
具体的には、オンライン勾配降下の各ステップの後、私たちのアルゴリズムは、有名なPolyAKステップサイズに従って段階サイズが選択される制約関数にサブ勾配降下ステップを適用します。
さらに、数値実験でこのアプローチを検証します。

要約(オリジナル)

In this work, we study online convex optimization with a fixed constraint function $g : \mathbb{R}^d \rightarrow \mathbb{R}$. Prior work on this problem has shown $O(\sqrt{T})$ regret and cumulative constraint satisfaction $\sum_{t=1}^{T} g(x_t) \leq 0$, while only accessing the constraint value and subgradient at the played actions $g(x_t), \partial g(x_t)$. Using the same constraint information, we show a stronger guarantee of anytime constraint satisfaction $g(x_t) \leq 0 \ \forall t \in [T]$, and matching $O(\sqrt{T})$ regret guarantees. These contributions are thanks to our approach of using Polyak feasibility steps to ensure constraint satisfaction, without sacrificing regret. Specifically, after each step of online gradient descent, our algorithm applies a subgradient descent step on the constraint function where the step-size is chosen according to the celebrated Polyak step-size. We further validate this approach with numerical experiments.

arxiv情報

著者 Spencer Hutchinson,Mahnoosh Alizadeh
発行日 2025-02-18 18:26:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Constrained Online Convex Optimization with Polyak Feasibility Steps はコメントを受け付けていません

Exploring the Impact of Dataset Statistical Effect Size on Model Performance and Data Sample Size Sufficiency

要約

十分な量の高品質データを持つことは、効果的な機械学習モデルをトレーニングする重要なイネーブラーです。
モデルのパフォーマンスをトレーニングして評価する前に、データセットの妥当性を効果的に決定できることは、実験的な設計やデータ収集に従事する人にとって不可欠なツールです。
ただし、それが必要になっているにもかかわらず、データの十分性を前向きに評価する能力は、とらえどころのない能力のままです。
ここでは、基本的な記述統計的測定が、結果のモデルのトレーニングにおいてデータセットがどれほど効果的であるかを示すことができるかどうかをよりよく確認するために行われた2つの実験について報告します。
私たちの機能の効果サイズを活用するこの作業は、最初に効果サイズと結果のモデルパフォーマンスの間に相関が存在するかどうかを調査します(クラス間の区別の大きさが分類子の結果として生じる成功と相関することを理論化します)。
次に、効果サイズの大きさが学習速度の収束速度に影響を与えるかどうかを調査します(効果サイズが大きいほど、モデルがより迅速に収束することを示し、サンプルサイズが必要であることを示します)。
私たちの結果は、これが適切なサンプルサイズや投影モデルのパフォーマンスを決定するための効果的なヒューリスティックではないことを示しているようであり、したがって、データの妥当性をより前向きに評価するために追加の作業が必要であることを示しています。

要約(オリジナル)

Having a sufficient quantity of quality data is a critical enabler of training effective machine learning models. Being able to effectively determine the adequacy of a dataset prior to training and evaluating a model’s performance would be an essential tool for anyone engaged in experimental design or data collection. However, despite the need for it, the ability to prospectively assess data sufficiency remains an elusive capability. We report here on two experiments undertaken in an attempt to better ascertain whether or not basic descriptive statistical measures can be indicative of how effective a dataset will be at training a resulting model. Leveraging the effect size of our features, this work first explores whether or not a correlation exists between effect size, and resulting model performance (theorizing that the magnitude of the distinction between classes could correlate to a classifier’s resulting success). We then explore whether or not the magnitude of the effect size will impact the rate of convergence of our learning rate, (theorizing again that a greater effect size may indicate that the model will converge more rapidly, and with a smaller sample size needed). Our results appear to indicate that this is not an effective heuristic for determining adequate sample size or projecting model performance, and therefore that additional work is still needed to better prospectively assess adequacy of data.

arxiv情報

著者 Arya Hatamian,Lionel Levine,Haniyeh Ehsani Oskouie,Majid Sarrafzadeh
発行日 2025-02-18 18:39:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Exploring the Impact of Dataset Statistical Effect Size on Model Performance and Data Sample Size Sufficiency はコメントを受け付けていません

RHINO: Learning Real-Time Humanoid-Human-Object Interaction from Human Demonstrations

要約

ヒューマノイドロボットは、移動と操作に成功を示しています。
これらの基本的な能力にもかかわらず、ヒューマノイドは、人間の指示を迅速に理解し、人間の相互作用シグナルに基づいて反応するために人間の日常生活の貴重なアシスタントになるために依然として必要です。
残念ながら、ほとんどの既存の作品は、多段階の相互作用にのみ焦点を当て、各タスクを個別に扱い、リアルタイムのフィードバックを無視しています。
この作業では、リアルタイムの反応能力を備えたヒューマノイドロボットにさまざまなタスクを達成し、人間がいつでもロボットを中断し、ロボットをすぐに人間に反応させることを目指しています。
このような能力をサポートするために、Rhinoという名前の一般的なヒューマノイドヒューマンとオブジェクトの相互作用フレームワーク、つまりリアルタイムのヒューマノイドヒューマン相互作用とオブジェクト操作を提案します。
Rhinoは、言語、画像、動きなどの複数の人間の信号のモダリティよりも、反応的な動き、命令ベースの操作、および安全性の懸念に関する統一された見解を提供します。
Rhinoは階層的な学習フレームワークであり、ヒューマノイドがヒトと人間のオブジェクトのデモンストレーションとテレオ操作データから反応スキルを学ぶことができます。
特に、相互作用プロセスを2つのレベルに切り離します。1)リアルタイムの人間の行動からの人間の意図を推測する高レベルのプランナー。
2)予測された意図に基づいて、リアクティブな動きの動作とオブジェクト操作スキルを達成する低レベルのコントローラー。
実際のヒューマノイドロボットで提案されたフレームワークを評価し、さまざまなシナリオでその有効性、柔軟性、安全性を実証します。

要約(オリジナル)

Humanoid robots have shown success in locomotion and manipulation. Despite these basic abilities, humanoids are still required to quickly understand human instructions and react based on human interaction signals to become valuable assistants in human daily life. Unfortunately, most existing works only focus on multi-stage interactions, treating each task separately, and neglecting real-time feedback. In this work, we aim to empower humanoid robots with real-time reaction abilities to achieve various tasks, allowing human to interrupt robots at any time, and making robots respond to humans immediately. To support such abilities, we propose a general humanoid-human-object interaction framework, named RHINO, i.e., Real-time Humanoid-human Interaction and Object manipulation. RHINO provides a unified view of reactive motion, instruction-based manipulation, and safety concerns, over multiple human signal modalities, such as languages, images, and motions. RHINO is a hierarchical learning framework, enabling humanoids to learn reaction skills from human-human-object demonstrations and teleoperation data. In particular, it decouples the interaction process into two levels: 1) a high-level planner inferring human intentions from real-time human behaviors; and 2) a low-level controller achieving reactive motion behaviors and object manipulation skills based on the predicted intentions. We evaluate the proposed framework on a real humanoid robot and demonstrate its effectiveness, flexibility, and safety in various scenarios.

arxiv情報

著者 Jingxiao Chen,Xinyao Li,Jiahang Cao,Zhengbang Zhu,Wentao Dong,Minghuan Liu,Ying Wen,Yong Yu,Liqing Zhang,Weinan Zhang
発行日 2025-02-18 18:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO | RHINO: Learning Real-Time Humanoid-Human-Object Interaction from Human Demonstrations はコメントを受け付けていません

TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling

要約

表形式データの監視された学習のためのディープラーニングアーキテクチャは、単純な多層パーセプトロン(MLP)から洗練された変圧器や検索された高級メソッドまで、範囲があります。
この研究は、MLPベースの実質的な表形式アーキテクチャを設計するための主要な、しかしこれまで見過ごされていた機会を強調しています。
つまり、新しいモデルタブは効率的なアンサンブルに依存しており、1つのタブがMLPのアンサンブルを効率的に模倣し、オブジェクトごとに複数の予測を生成します。
TABMでは、従来のディープアンサンブルと比較して、基礎となる暗黙のMLPが同時にトレーニングされ、パラメーターのほとんどが共有されるため、パフォーマンスと効率が大幅に向上します。
TABMを新しいベースラインとして使用して、タスクのパフォーマンスと効率の両方の観点から、パブリックベンチマーク上の表形式DLアーキテクチャの大規模な評価を実行します。
一般に、TABMを含むMLPは、注意および検索ベースのアーキテクチャと比較して、より強力でより実用的なモデルのラインを形成することを示しています。
特に、TABMが表形式DLモデルで最高のパフォーマンスを実証することがわかります。
次に、TABMのアンサンブルのような性質に関する経験的分析を実施します。
TABMの複数の予測は個別に弱いが、集合的に強力であることがわかります。
全体として、私たちの研究は、魅力的なテクニックを表形式のDLにもたらし、TABMとのパフォーマンス効率のトレードオフを進めます。これは、研究者と実践者にとってシンプルで強力なベースラインです。

要約(オリジナル)

Deep learning architectures for supervised learning on tabular data range from simple multilayer perceptrons (MLP) to sophisticated Transformers and retrieval-augmented methods. This study highlights a major, yet so far overlooked opportunity for designing substantially better MLP-based tabular architectures. Namely, our new model TabM relies on efficient ensembling, where one TabM efficiently imitates an ensemble of MLPs and produces multiple predictions per object. Compared to a traditional deep ensemble, in TabM, the underlying implicit MLPs are trained simultaneously, and (by default) share most of their parameters, which results in significantly better performance and efficiency. Using TabM as a new baseline, we perform a large-scale evaluation of tabular DL architectures on public benchmarks in terms of both task performance and efficiency, which renders the landscape of tabular DL in a new light. Generally, we show that MLPs, including TabM, form a line of stronger and more practical models compared to attention- and retrieval-based architectures. In particular, we find that TabM demonstrates the best performance among tabular DL models. Then, we conduct an empirical analysis on the ensemble-like nature of TabM. We observe that the multiple predictions of TabM are weak individually, but powerful collectively. Overall, our work brings an impactful technique to tabular DL and advances the performance-efficiency trade-off with TabM — a simple and powerful baseline for researchers and practitioners.

arxiv情報

著者 Yury Gorishniy,Akim Kotelnikov,Artem Babenko
発行日 2025-02-18 18:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling はコメントを受け付けていません

Towards Quantum Tensor Decomposition in Biomedical Applications

要約

テンソル分解は、マルチモーダル生物医学データの特徴抽出の強力なフレームワークとして浮上しています。
このレビューでは、Tucker、Candecomp/Parafac、Spiked Tensor分解など、イメージング、マルチオミクス、空間トランクリプトミックなどの生物医学的ドメイン全体の多様なアプリケーションなどのテンソル分解方法の包括的な分析を提示します。
文献を体系的に調査するために、テンソル分解が使用されているバイオメディシンで異なるテーマサブエリアを特定およびグループ化するトピックモデリングベースのアプローチを適用し、それにより重要な傾向と研究の方向性を明らかにしました。
潜在スペースのスケーラビリティに関連する課題を評価し、テンソルの最適なランクを取得しました。
さらに、テンソル分解のための量子アルゴリズムの最近の進歩について説明し、これらの課題に対処するために量子コンピューティングを活用する方法を探ります。
私たちの研究には、量子コンピューティングプラットフォームの予備的なリソース推定分析が含まれており、短期量子デバイスに量子強化テンソル分解方法を実装する可能性を調べます。
集合的に、このレビューは、生物医学分析における現在のアプリケーションとテンソル分解の課題を統合するだけでなく、複雑な生物医学データから実用的な洞察を導き出すことへの影響を高めるための量子コンピューティング戦略の有望な概要も概説しています。

要約(オリジナル)

Tensor decomposition has emerged as a powerful framework for feature extraction in multi-modal biomedical data. In this review, we present a comprehensive analysis of tensor decomposition methods such as Tucker, CANDECOMP/PARAFAC, spiked tensor decomposition, etc. and their diverse applications across biomedical domains such as imaging, multi-omics, and spatial transcriptomics. To systematically investigate the literature, we applied a topic modeling-based approach that identifies and groups distinct thematic sub-areas in biomedicine where tensor decomposition has been used, thereby revealing key trends and research directions. We evaluated challenges related to the scalability of latent spaces along with obtaining the optimal rank of the tensor, which often hinder the extraction of meaningful features from increasingly large and complex datasets. Additionally, we discuss recent advances in quantum algorithms for tensor decomposition, exploring how quantum computing can be leveraged to address these challenges. Our study includes a preliminary resource estimation analysis for quantum computing platforms and examines the feasibility of implementing quantum-enhanced tensor decomposition methods on near-term quantum devices. Collectively, this review not only synthesizes current applications and challenges of tensor decomposition in biomedical analyses but also outlines promising quantum computing strategies to enhance its impact on deriving actionable insights from complex biomedical data.

arxiv情報

著者 Myson Burch,Jiasen Zhang,Gideon Idumah,Hakan Doga,Richard Lartey,Lamis Yehia,Mingrui Yang,Murat Yildirim,Mihriban Karaayvaz,Omar Shehab,Weihong Guo,Ying Ni,Laxmi Parida,Xiaojuan Li,Aritra Bose
発行日 2025-02-18 18:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | Towards Quantum Tensor Decomposition in Biomedical Applications はコメントを受け付けていません

From Instance Training to Instruction Learning: Task Adapters Generation from Instructions

要約

大規模な言語モデル(LLMS)は、命令Finetuning(IFT)を利用することにより、一般的なタスクを解決する機能を獲得しました。
ただし、IFTは依然として広範なタスクデータのインスタンストレーニングに大きく依存しているため、LLMの適応性は、ラベルの付いたタスクインスタンスが希少で広範なタスク一般化が最重要になる現実世界のシナリオに大きく制限されます。
LLMSとは反対に、人間は繰り返しの実践だけでなく、教育ガイドラインを理解し、従うことによって、スキルと完全なタスクを獲得します。
この論文は、インスタンストレーニングの欠点に対処するために人間の学習をシミュレートすることに専念し、クロスタスクの一般化を強化するための指導学習に焦点を当てています。
このコンテキスト内で、目的(TAGI)からタスクアダプターの生成を導入します。これは、目に見えないタスクの再訓練なしに、指定されたタスク命令に基づいてパラメーター生成方法でタスク固有のモデルを自動的に構築します。
具体的には、知識の蒸留を利用して、ラベル、出力ロジット、およびそれらの間のアダプターパラメーターを調整することにより、インスタンスを使用してトレーニングを通じて開発された命令とタスク固有のモデルを使用して学習を通じて開発されたTAGI間の一貫性を高めます。
Tagiには、ハイパーネットワークの事前トレーニングや微調整を含む2段階のトレーニングプロセスを通じて、クロスタスク一般化機能が備わっています。
超自然な指示とP3データセットでTAGIを評価します。
実験結果は、TAGIが従来のメタトレーニングモデルやその他のハイパーネットワークモデルに一致したり、アウトパフォームしたりしながら、計算要件を大幅に削減できることを示しています。

要約(オリジナル)

Large language models (LLMs) have acquired the ability to solve general tasks by utilizing instruction finetuning (IFT). However, IFT still relies heavily on instance training of extensive task data, which greatly limits the adaptability of LLMs to real-world scenarios where labeled task instances are scarce and broader task generalization becomes paramount. Contrary to LLMs, humans acquire skills and complete tasks not merely through repeated practice but also by understanding and following instructional guidelines. This paper is dedicated to simulating human learning to address the shortcomings of instance training, focusing on instruction learning to enhance cross-task generalization. Within this context, we introduce Task Adapters Generation from Instructions (TAGI), which automatically constructs the task-specific model in a parameter generation manner based on the given task instructions without retraining for unseen tasks. Specifically, we utilize knowledge distillation to enhance the consistency between TAGI developed through Learning with Instruction and task-specific models developed through Training with Instance, by aligning the labels, output logits, and adapter parameters between them. TAGI is endowed with cross-task generalization capabilities through a two-stage training process that includes hypernetwork pretraining and finetuning. We evaluate TAGI on the Super-Natural Instructions and P3 datasets. The experimental results demonstrate that TAGI can match or even outperform traditional meta-trained models and other hypernetwork models, while significantly reducing computational requirements.

arxiv情報

著者 Huanxuan Liao,Shizhu He,Yao Xu,Yuanzhe Zhang,Yanchao Hao,Shengping Liu,Kang Liu,Jun Zhao
発行日 2025-02-18 15:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Instance Training to Instruction Learning: Task Adapters Generation from Instructions はコメントを受け付けていません

Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks

要約

この論文では、$ \ textbf {ne} $ ural-$ \ textbf {sy} $ mbolic $ \ textbf {c} $ ollaborative $ \ textbf {d} $ intillation($ \ textbf {nesycd} $)、aを提案します。
大規模な言語モデルの複雑な推論能力を学ぶための新しい知識蒸留方法(LLM、例えば、
\ TextGreater 13b)。
これらのタスクは一般的な認知能力だけでなく、これらの神経ベースのSLMにとってまばらで困難な場合が多い専門的な知識も必要とするため、複雑な推論タスクは小言語モデル(SLM、$ \ leq $ 7b)にとって困難であると主張します。
効果的にキャプチャする。
したがって、NESYCDは、異なるマナーを使用して、LLMの一般的な能力と専門知識を蒸留します。
一方では、教師LLMSからパラメーター化されたニューラルネットワークの学生SLMに一般的な能力のみを蒸留します。
一方、複雑な推論タスクの専門的な能力と珍しい知識のために、象徴的な知識蒸留アプローチを採用して、象徴的な知識ベース(KB)内で専門知識を取得して保存します。
一般的な機能と専門的な機能を切り離すことにより、提案されたNESYCDは、より小さなモデルを利用し、パラメーター化されたニューラルネットワークをシンボリックKBとブレンディングすることで、コスト効率が高く優れたパフォーマンスを達成できます。
さらに、専門のKBはよく一般化され、人間によって理解され操作されています。
私たちの実験は、NESYCDが領域内(BBH、GSM8K)およびドメイン外(Agieval、ARC)データセットのSLMSの複雑な推論パフォーマンスを大幅に向上させることを示しています。
特に、私たちのアプローチにより、Llama3-8BとQWEN2-7BがパフォーマンスでGPT-3.5ターボを上回り、ラマ3-70Bのマッチングに近づくことができました。
私たちのコードは、https://github.com/xnhyacinth/nesycdで入手できます。

要約(オリジナル)

In this paper, we propose $\textbf{Ne}$ural-$\textbf{Sy}$mbolic $\textbf{C}$ollaborative $\textbf{D}$istillation ($\textbf{NesyCD}$), a novel knowledge distillation method for learning the complex reasoning abilities of Large Language Models (LLMs, e.g., \textgreater 13B). We argue that complex reasoning tasks are difficult for Small Language Models (SLMs, e.g., $\leq$ 7B), as these tasks demand not only general cognitive abilities but also specialized knowledge, which is often sparse and difficult for these neural-based SLMs to effectively capture. Therefore, NesyCD distills the general capabilities and specialized knowledge in LLMs using different manners. On the one hand, we distill only general abilities from teacher LLMs into the student SLMs of parameterized neural networks. On the other hand, for the specialized abilities and uncommon knowledge of a complex reasoning task, we employ a symbolic knowledge distillation approach to obtain and store the specialized knowledge within a symbolic knowledge base (KB). By decoupling general and specialized capabilities, the proposed NesyCD can achieve superior performance cost-effectively, utilizing smaller models and blending parameterized neural networks with symbolic KB. Moreover, the specialized KB generalizes well and is comprehended and manipulated by humans. Our experiments show that NesyCD significantly boosts SLMs’ complex reasoning performance on in-domain (BBH, GSM8K) and out-of-domain (AGIEval, ARC) datasets. Notably, our approach enabled the LLaMA3-8B and Qwen2-7B to surpass GPT-3.5-turbo in performance and come close to matching LLaMA3-70B, despite the latter having nine times more parameters. Our code will be available at https://github.com/Xnhyacinth/NesyCD.

arxiv情報

著者 Huanxuan Liao,Shizhu He,Yao Xu,Yuanzhe Zhang,Kang Liu,Jun Zhao
発行日 2025-02-18 15:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks はコメントを受け付けていません

Large Language Diffusion Models

要約

自己回帰モデル(アーム)は、大規模な言語モデル(LLM)の礎石と広く見なされています。
私たちは、トレーニング前および監視された微調整(SFT)パラダイムの下でゼロから訓練された拡散モデルであるLladaを導入することにより、この概念に挑戦します。
LLADAモデルの分布は、マスクされたトークンを予測するためにバニラ変圧器によってパラメーター化された、フォワードデータマスキングプロセスと逆プロセスを介して分布しています。
尤度結合を最適化することにより、確率的推論のための原則的な生成アプローチを提供します。
大規模なベンチマークを横切って、Lladaは強力なスケーラビリティを示し、自己構築されたアームベースラインよりも優れています。
驚くべきことに、LLADA 8Bは、コンテキスト学習におけるLLAMA3 8Bのような強力なLLMと競争力があり、SFTの後、マルチターンダイアログなどのケーススタディで印象的な指導に応じた能力を示します。
さらに、Lladaは逆転の呪いに対処し、逆転詩の完成タスクでGPT-4oを上回ります。
私たちの調査結果は、拡散モデルを腕に代わる実行可能で有望な代替として確立し、上記の重要なLLM機能が本質的に武器に結び付けられているという仮定に挑戦します。
プロジェクトページとコード:https://ml-gsai.github.io/llada-demo/。

要約(オリジナル)

Autoregressive models (ARMs) are widely regarded as the cornerstone of large language models (LLMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data masking process and a reverse process, parameterized by a vanilla Transformer to predict masked tokens. By optimizing a likelihood bound, it provides a principled generative approach for probabilistic inference. Across extensive benchmarks, LLaDA demonstrates strong scalability, outperforming our self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive instruction-following abilities in case studies such as multi-turn dialogue. Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal poem completion task. Our findings establish diffusion models as a viable and promising alternative to ARMs, challenging the assumption that key LLM capabilities discussed above are inherently tied to ARMs. Project page and codes: https://ml-gsai.github.io/LLaDA-demo/.

arxiv情報

著者 Shen Nie,Fengqi Zhu,Zebin You,Xiaolu Zhang,Jingyang Ou,Jun Hu,Jun Zhou,Yankai Lin,Ji-Rong Wen,Chongxuan Li
発行日 2025-02-18 16:08:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Large Language Diffusion Models はコメントを受け付けていません