Minimal Ranks, Maximum Confidence: Parameter-efficient Uncertainty Quantification for LoRA

要約

低ランク適応(LORA)により、重量の更新を低ランクマトリックスに分解し、ストレージと計算オーバーヘッドを大幅に削減することにより、大きな言語モデルのパラメーター効率の高い微調整を可能にします。
効果的ですが、標準のLORAには不確実性の定量化のメカニズムがあり、自信過剰で較正されていないモデルにつながります。
LORAのベイジアンバリエーションはこの制限に対処しますが、トレーニング可能なパラメーターの数が大幅に増加したため、元の効率性の向上を部分的に相殺します。
さらに、これらのモデルは訓練が難しく、不安定な収束に苦しむ可能性があります。
この作業では、新しいパラメーター効率の高いベイジアンロラを提案し、非常に低次元パラメータースペースで効果的な不確実性の定量化が達成できることを実証します。
提案された方法は、計算効率を維持しながら、キャリブレーションと一般化の改善により強力なパフォーマンスを実現します。
私たちの経験的調査結果は、重量空間の適切な投影により、(1)不確実性を低次元空間で効果的にモデル化できることを示しています。

要約(オリジナル)

Low-Rank Adaptation (LoRA) enables parameter-efficient fine-tuning of large language models by decomposing weight updates into low-rank matrices, significantly reducing storage and computational overhead. While effective, standard LoRA lacks mechanisms for uncertainty quantification, leading to overconfident and poorly calibrated models. Bayesian variants of LoRA address this limitation, but at the cost of a significantly increased number of trainable parameters, partially offsetting the original efficiency gains. Additionally, these models are harder to train and may suffer from unstable convergence. In this work, we propose a novel parameter-efficient Bayesian LoRA, demonstrating that effective uncertainty quantification can be achieved in very low-dimensional parameter spaces. The proposed method achieves strong performance with improved calibration and generalization while maintaining computational efficiency. Our empirical findings show that, with the appropriate projection of the weight space: (1) uncertainty can be effectively modeled in a low-dimensional space, and (2) weight covariances exhibit low ranks.

arxiv情報

著者 Patryk Marszałek,Klaudia Bałazy,Jacek Tabor,Tomasz Kuśmierczyk
発行日 2025-02-17 18:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Minimal Ranks, Maximum Confidence: Parameter-efficient Uncertainty Quantification for LoRA はコメントを受け付けていません

Splitting criteria for ordinal decision trees: an experimental study

要約

順序分類(OC)は、ラベルが自然な順序を示す分類タスクに対処する機械学習フィールドです。
すべてのクラスを等しく異なるものとして扱う名目分類とは異なり、OCは順序関係を考慮に入れ、より正確で関連性のある結果を生み出します。
これは、分類エラーの大きさが影響を与えるアプリケーションで特に重要です。
それにもかかわらず、OCの問題は多くの場合、公称方法を使用して取り組まれ、最適ではないソリューションにつながります。
意思決定ツリーは最も人気のある分類アプローチの1つですが、他の分類器と比較して、順序ツリーベースのアプローチはあまり注目されていません。
この作業は、順序関係をキャプチャするために特別に設計された樹木ベースの方法論の実験的研究を実施します。
順序分割基準の包括的な調査が提供され、明確にするために文献で使用される表記法を標準化します。
3つの順序分割基準、順序ジニ(ogini)、加重情報ゲイン(WIG)、およびランキング不純物(RI)は、決定ツリー分類器に組み込むことにより、最初の2つの名目対応(GINIおよび情報ゲイン)と比較されます。

よく知られているOC評価メトリックを使用した順序と公称分割基準の最初の実験的比較をサポートする、45の公開されているOCデータセットを考慮した広範なリポジトリが提示されています。
結果の統計分析は、Oginiがこれまでで最も効果的な順序分割基準として強調しています。
ソースコード、データセット、および結果は、研究コミュニティが利用できるようになります。

要約(オリジナル)

Ordinal Classification (OC) is a machine learning field that addresses classification tasks where the labels exhibit a natural order. Unlike nominal classification, which treats all classes as equally distinct, OC takes the ordinal relationship into account, producing more accurate and relevant results. This is particularly critical in applications where the magnitude of classification errors has implications. Despite this, OC problems are often tackled using nominal methods, leading to suboptimal solutions. Although decision trees are one of the most popular classification approaches, ordinal tree-based approaches have received less attention when compared to other classifiers. This work conducts an experimental study of tree-based methodologies specifically designed to capture ordinal relationships. A comprehensive survey of ordinal splitting criteria is provided, standardising the notations used in the literature for clarity. Three ordinal splitting criteria, Ordinal Gini (OGini), Weighted Information Gain (WIG), and Ranking Impurity (RI), are compared to the nominal counterparts of the first two (Gini and information gain), by incorporating them into a decision tree classifier. An extensive repository considering 45 publicly available OC datasets is presented, supporting the first experimental comparison of ordinal and nominal splitting criteria using well-known OC evaluation metrics. Statistical analysis of the results highlights OGini as the most effective ordinal splitting criterion to date. Source code, datasets, and results are made available to the research community.

arxiv情報

著者 Rafael Ayllón-Gavilán,Francisco José Martínez-Estudillo,David Guijo-Rubio,César Hervás-Martínez,Pedro Antonio Gutiérrez
発行日 2025-02-17 18:53:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Splitting criteria for ordinal decision trees: an experimental study はコメントを受け付けていません

Learning Smooth and Expressive Interatomic Potentials for Physical Property Prediction

要約

機械学習間原子間ポテンシャル(MLIP)は、計算コストの一部で量子機械的計算を近似するのにますます効果的になっています。
ただし、テストセットの延期されたエラーの低下は、常に下流の物理的プロパティ予測タスクの結果が改善されるとは限りません。
この論文では、分子動的シミュレーション中にエネルギーを節約する実用的な能力に関するMLIPをテストすることを提案します。
合格すると、テストエラーと物理的なプロパティ予測タスクのパフォーマンスとの間に相関が改善されます。
このテストに失敗したモデルにつながる可能性のある選択肢を特定し、これらの観察結果を使用して、非常に発現するモデルを改善します。
結果として得られるモデルであるESENは、材料の安定性予測、熱伝導率予測、フォノン計算など、さまざまな物理的特性予測タスクに関する最先端の結果を提供します。

要約(オリジナル)

Machine learning interatomic potentials (MLIPs) have become increasingly effective at approximating quantum mechanical calculations at a fraction of the computational cost. However, lower errors on held out test sets do not always translate to improved results on downstream physical property prediction tasks. In this paper, we propose testing MLIPs on their practical ability to conserve energy during molecular dynamic simulations. If passed, improved correlations are found between test errors and their performance on physical property prediction tasks. We identify choices which may lead to models failing this test, and use these observations to improve upon highly-expressive models. The resulting model, eSEN, provides state-of-the-art results on a range of physical property prediction tasks, including materials stability prediction, thermal conductivity prediction, and phonon calculations.

arxiv情報

著者 Xiang Fu,Brandon M. Wood,Luis Barroso-Luque,Daniel S. Levine,Meng Gao,Misko Dzamba,C. Lawrence Zitnick
発行日 2025-02-17 18:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.comp-ph | Learning Smooth and Expressive Interatomic Potentials for Physical Property Prediction はコメントを受け付けていません

Learning Getting-Up Policies for Real-World Humanoid Robots

要約

自動落下回復は、ヒューマノイドロボットを確実に展開する前に、重要な前提条件です。
ヒューマノイドが転倒した後、ヒューマノイドロボットが動作すると予想されるさまざまな構成のために、立ち上がるための手描きのコントローラーは困難です。
このホワイトペーパーでは、ヒューマノイドロボットがさまざまな地形のさまざまな構成から立ち上がることができるコントローラーを生産する学習フレームワークを開発します。
ヒューマノイド運動学習の以前の成功したアプリケーションとは異なり、上昇するタスクには複雑な接触パターンが含まれ、衝突ジオメトリとスパースの報酬を正確にモデル化する必要があります。
カリキュラムに続く2フェーズアプローチを通じて、これらの課題に対処します。
最初の段階では、滑らかさまたは速度 /トルクの制限に関する最小限の制約の下で、良い上昇軌道を発見することに焦点を当てています。
次に、第2段階では、発見された動きを、初期構成と地形の変動に対して堅牢な展開可能な(つまり、滑らかで遅い)動きに洗練されます。
これらの革新により、現実世界のG1ヒューマノイドロボットは、私たちが考慮した2つの主要な状況から立ち上がることができます:a)横向きに横たわってb)横に横たわって、どちらも平らで変形可能な滑りやすい表面と斜面でテストされました(例えば、ずさんな
草と雪原)。
私たちの知る限り、これは、現実の世界で人間サイズのヒューマノイドロボットのために学んだ学んだ成功したポリシーの最初の成功したデモです。
プロジェクトページ:https://humanoid-getup.github.io/

要約(オリジナル)

Automatic fall recovery is a crucial prerequisite before humanoid robots can be reliably deployed. Hand-designing controllers for getting up is difficult because of the varied configurations a humanoid can end up in after a fall and the challenging terrains humanoid robots are expected to operate on. This paper develops a learning framework to produce controllers that enable humanoid robots to get up from varying configurations on varying terrains. Unlike previous successful applications of humanoid locomotion learning, the getting-up task involves complex contact patterns, which necessitates accurately modeling the collision geometry and sparser rewards. We address these challenges through a two-phase approach that follows a curriculum. The first stage focuses on discovering a good getting-up trajectory under minimal constraints on smoothness or speed / torque limits. The second stage then refines the discovered motions into deployable (i.e. smooth and slow) motions that are robust to variations in initial configuration and terrains. We find these innovations enable a real-world G1 humanoid robot to get up from two main situations that we considered: a) lying face up and b) lying face down, both tested on flat, deformable, slippery surfaces and slopes (e.g., sloppy grass and snowfield). To the best of our knowledge, this is the first successful demonstration of learned getting-up policies for human-sized humanoid robots in the real world. Project page: https://humanoid-getup.github.io/

arxiv情報

著者 Xialin He,Runpei Dong,Zixuan Chen,Saurabh Gupta
発行日 2025-02-17 18:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Learning Getting-Up Policies for Real-World Humanoid Robots はコメントを受け付けていません

Merging Language and Domain Specific Models: The Impact on Technical Vocabulary Acquisition

要約

このペーパーでは、マージされた言語モデルにおける技術的な語彙の統合を調査します。
一般的な目的の言語固有のモデルとドメイン固有のモデルを組み合わせて、結果のモデルの技術用語の理解に焦点を当てたときの知識伝達メカニズムを探ります。
私たちの実験では、このマージプロセスが専門用語の処理におけるターゲットモデルの習熟度に対する影響を分析します。
マージモデルのパフォーマンスの定量的評価を提示し、個々の構成モデルのパフォーマンスと比較します。
調査結果は、ドメイン固有の知識を高めるためのさまざまなモデルマージ方法の有効性に関する洞察を提供し、自然言語処理における言語間知識移転のためのこれらの方法を活用する潜在的な課題と将来の方向性を強調します。

要約(オリジナル)

This paper investigates the integration of technical vocabulary in merged language models. We explore the knowledge transfer mechanisms involved when combining a general-purpose language-specific model with a domain-specific model, focusing on the resulting model’s comprehension of technical jargon. Our experiments analyze the impact of this merging process on the target model’s proficiency in handling specialized terminology. We present a quantitative evaluation of the performance of the merged model, comparing it with that of the individual constituent models. The findings offer insights into the effectiveness of different model merging methods for enhancing domain-specific knowledge and highlight potential challenges and future directions in leveraging these methods for cross-lingual knowledge transfer in Natural Language Processing.

arxiv情報

著者 Thibault Rousset,Taisei Kakibuchi,Yusuke Sasaki,Yoshihide Nomura
発行日 2025-02-17 16:39:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Merging Language and Domain Specific Models: The Impact on Technical Vocabulary Acquisition はコメントを受け付けていません

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

要約

潜在空間で暗黙的に推論することにより、テスト時間計算をスケーリングできる新しい言語モデルアーキテクチャを研究します。
私たちのモデルは、再発ブロックを反復することで機能し、それによりテスト時に任意の深さに照会します。
これは、より多くのトークンを生成することで計算される主流の推論モデルとは対照的です。
考え方に基づいたアプローチとは異なり、私たちのアプローチでは、特別なトレーニングデータを必要とせず、小さなコンテキストウィンドウで動作し、言葉で簡単に表現できないタイプの推論をキャプチャできます。
概念実証モデルを35億パラメーターと8,000億トークンにスケーリングします。
結果のモデルは、500億パラメーターに相当する計算負荷まで、時には劇的にベンチマークのパフォーマンスを向上させることができることを示しています。

要約(オリジナル)

We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby unrolling to arbitrary depth at test-time. This stands in contrast to mainstream reasoning models that scale up compute by producing more tokens. Unlike approaches based on chain-of-thought, our approach does not require any specialized training data, can work with small context windows, and can capture types of reasoning that are not easily represented in words. We scale a proof-of-concept model to 3.5 billion parameters and 800 billion tokens. We show that the resulting model can improve its performance on reasoning benchmarks, sometimes dramatically, up to a computation load equivalent to 50 billion parameters.

arxiv情報

著者 Jonas Geiping,Sean McLeish,Neel Jain,John Kirchenbauer,Siddharth Singh,Brian R. Bartoldson,Bhavya Kailkhura,Abhinav Bhatele,Tom Goldstein
発行日 2025-02-17 17:14:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach はコメントを受け付けていません

SpeechT: Findings of the First Mentorship in Speech Translation

要約

この作品は、2024年12月と2025年1月に開催されたスピーチ翻訳の最初のメンターシップ(SpeechT)の詳細と調査結果を提示します。メンターシップの要件を満たすために、参加者はデータの準備、モデリング、、重要な活動に従事しました。
高度な研究。

要約(オリジナル)

This work presents the details and findings of the first mentorship in speech translation (SpeechT), which took place in December 2024 and January 2025. To fulfil the requirements of the mentorship, the participants engaged in key activities, including data preparation, modelling, and advanced research.

arxiv情報

著者 Yasmin Moslem,Juan Julián Cea Morán,Mariano Gonzalez-Gomez,Muhammad Hazim Al Farouq,Farah Abdou,Satarupa Deb
発行日 2025-02-17 17:18:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD | SpeechT: Findings of the First Mentorship in Speech Translation はコメントを受け付けていません

How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines

要約

ニューラルスケーリング法則は、モデルサイズ、データセットボリューム、および計算リソースの間の予測可能な関係を明らかにすることにより、大規模AIモデルの設計と最適化に革命をもたらしました。
初期の研究により、モデルパフォーマンスにおける電力法関係が確立され、最適なスケーリング戦略が計算されました。
ただし、最近の研究では、アーキテクチャ、モダリティ、展開コンテキスト全体の制限が強調されています。
まばらなモデル、混合物の混合物、検索された学習学習、およびマルチモーダルモデルは、多くの場合、従来のスケーリングパターンから逸脱します。
さらに、スケーリングの動作は、ビジョン、強化学習、微調整などのドメインによって異なり、より微妙なアプローチの必要性を強調しています。
この調査では、50を超える研究からの洞察を統合し、理論的基礎、経験的調査結果、およびスケーリング法の実際的な意味を調べます。
また、現実世界のアプリケーションに合わせた適応スケーリング戦略を提唱する、データ効率、推論スケーリング、アーキテクチャ固有の制約などの重要な課題についても探ります。
スケーリング法は有用なガイドを提供しますが、すべてのアーキテクチャとトレーニング戦略に常に一般化するとは限らないことをお勧めします。

要約(オリジナル)

Neural scaling laws have revolutionized the design and optimization of large-scale AI models by revealing predictable relationships between model size, dataset volume, and computational resources. Early research established power-law relationships in model performance, leading to compute-optimal scaling strategies. However, recent studies highlighted their limitations across architectures, modalities, and deployment contexts. Sparse models, mixture-of-experts, retrieval-augmented learning, and multimodal models often deviate from traditional scaling patterns. Moreover, scaling behaviors vary across domains such as vision, reinforcement learning, and fine-tuning, underscoring the need for more nuanced approaches. In this survey, we synthesize insights from over 50 studies, examining the theoretical foundations, empirical findings, and practical implications of scaling laws. We also explore key challenges, including data efficiency, inference scaling, and architecture-specific constraints, advocating for adaptive scaling strategies tailored to real-world applications. We suggest that while scaling laws provide a useful guide, they do not always generalize across all architectures and training strategies.

arxiv情報

著者 Ayan Sengupta,Yash Goel,Tanmoy Chakraborty
発行日 2025-02-17 17:20:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines はコメントを受け付けていません

A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability

要約

NLGメタ評価では、評価メトリックは通常、人間との一貫性に基づいて評価されます。
ただし、人間の評価の処理における問題や、メタ評価の有効性を損なう相関測定の曖昧な選択など、従来のNLGメタ評価アプローチのいくつかの制限を特定します。
この作業では、さまざまな評価能力に焦点を当てたデュアルパースのNLGメタ評価フレームワークを提案し、それによってより良い解釈可能性を提供します。
さらに、新しい人間の注釈を必要とせずに、対応するベンチマークを自動的に構築する方法を導入します。
さらに、提案されたフレームワークに基づいて評価者として16人の代表LLMを使用して実験を行い、異なる観点から評価パフォーマンスを包括的に分析します。

要約(オリジナル)

In NLG meta-evaluation, evaluation metrics are typically assessed based on their consistency with humans. However, we identify some limitations in traditional NLG meta-evaluation approaches, such as issues in handling human ratings and ambiguous selections of correlation measures, which undermine the effectiveness of meta-evaluation. In this work, we propose a dual-perspective NLG meta-evaluation framework that focuses on different evaluation capabilities, thereby providing better interpretability. In addition, we introduce a method of automatically constructing the corresponding benchmarks without requiring new human annotations. Furthermore, we conduct experiments with 16 representative LLMs as the evaluators based on our proposed framework, comprehensively analyzing their evaluation performance from different perspectives.

arxiv情報

著者 Xinyu Hu,Mingqi Gao,Li Lin,Zhenghan Yu,Xiaojun Wan
発行日 2025-02-17 17:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability はコメントを受け付けていません

Designing Role Vectors to Improve LLM Inference Behaviour

要約

大規模な言語モデル(LLMS)に対するペルソナの影響は広く研究されていますが、パフォーマンスへの直接的な影響は不確実なままです。
この作業では、ペルソナベースのプロンプトに代わるロールベクターを介してLLMの動作を導くための新しいアプローチを探ります。
モデルのアクティベーションから派生した29の役割ベクトルを構築し、複数のドメインにわたるベンチマークパフォーマンスへの影響を評価します。
分析では、これらのベクトルがモデルをドメイン固有の専門知識に効果的に誘導できるかどうかを調査します。
2つの重要な介入を測定します。(i)役割固有の方向を強化する活性化の追加と(ii)それらを除去する方向アブレーション。
十分に確立されたベンチマークの結果は、実際にロールベクトルがモデルの動作に影響を与え、関連するドメインのタスクパフォ​​ーマンスを改善しながら、無関係なタスクにわずかに影響することを示しています。
これは、内部モデルの表現を操作することが、ペルソナベースのプロンプトよりも結果に大きな影響を与えることを示唆しています。

要約(オリジナル)

The influence of personas on Large Language Models (LLMs) has been widely studied, yet their direct impact on performance remains uncertain. This work explores a novel approach to guiding LLM behaviour through role vectors, an alternative to persona-based prompting. We construct 29 role vectors derived from model activations and evaluate their impact on benchmark performance across multiple domains. Our analysis investigates whether these vectors can effectively steer models toward domain-specific expertise. We measure two key interventions: (i) activation addition, which reinforces role-specific directions, and (ii) directional ablation, which removes them. Results on well-established benchmarks indicate that role vectors do, in fact, influence model behaviour, improving task performance in relevant domains while marginally affecting unrelated tasks. This, in turn, suggests that manipulating internal model representations has a greater impact on outcomes than persona-based prompting.

arxiv情報

著者 Daniele Potertì,Andrea Seveso,Fabio Mercorio
発行日 2025-02-17 17:24:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Designing Role Vectors to Improve LLM Inference Behaviour はコメントを受け付けていません