UltraIF: Advancing Instruction Following from the Wild

要約

指導に従うことにより、最新の大手言語モデル(LLMS)が役立つアシスタントになりました。
ただし、複雑な指示でLLMを飼育するための鍵は神秘的なままです。なぜなら、オープンソースコミュニティによって訓練されたモデルと大手企業によって訓練されたモデルとの間に大きなギャップがあるからです。
ギャップを埋めるために、オープンソースデータを使用して複雑な指示に従うことができるLLMを構築するためのシンプルでスケーラブルなアプローチUltraifを提案します。
Ultraifは、実際のユーザープロンプトを最初に分解し、制約のためのより単純なクエリ、制約、および対応する評価の質問に分類します。
次に、超筋ポジャーをトレーニングして、評価の質問で制約関連プロンプトを構成します。
このプロンプト作曲家を使用すると、複雑な指示を合成し、評価の質問を使用して応答をフィルターすることができます。
私たちの実験では、初めてllama-3.1-8b-baseを整列させて、ベンチマーク情報なしで5つの命令に従うベンチマークの指示バージョンに追いつきます。
Alignedモデルは、他のベンチマークでも競争力のあるスコアを達成しました。
さらに、Ultraifが自己調整を通じてLlama-3.1-8B-Instructをさらに改善し、メソッドのより広範なユースケースを動機づけることができることも示しています。
私たちのコードは、https://github.com/kkk-an/ultraifで入手できます。

要約(オリジナル)

Instruction-following made modern large language models (LLMs) helpful assistants. However, the key to taming LLMs on complex instructions remains mysterious, for that there are huge gaps between models trained by open-source community and those trained by leading companies. To bridge the gap, we propose a simple and scalable approach UltraIF for building LLMs that can follow complex instructions with open-source data. UltraIF first decomposes real-world user prompts into simpler queries, constraints, and corresponding evaluation questions for the constraints. Then, we train an UltraComposer to compose constraint-associated prompts with evaluation questions. This prompt composer allows us to synthesize complicated instructions as well as filter responses with evaluation questions. In our experiment, for the first time, we successfully align LLaMA-3.1-8B-Base to catch up with its instruct version on 5 instruction-following benchmarks without any benchmark information, using only 8B model as response generator and evaluator. The aligned model also achieved competitive scores on other benchmarks. Moreover, we also show that UltraIF could further improve LLaMA-3.1-8B-Instruct through self-alignment, motivating broader use cases for the method. Our code will be available at https://github.com/kkk-an/UltraIF.

arxiv情報

著者 Kaikai An,Li Sheng,Ganqu Cui,Shuzheng Si,Ning Ding,Yu Cheng,Baobao Chang
発行日 2025-02-06 15:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | UltraIF: Advancing Instruction Following from the Wild はコメントを受け付けていません

Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction

要約

分布の変更に対する堅牢性により、特に情報抽出タスクでは、現実的な世界でNLPモデルをうまく適用できるようになります。
ただし、ほとんどの以前の評価ベンチマークは、堅牢性の重要な測定を無視して、ペアワイズマッチングの正確性を検証することに専念しています。
このホワイトペーパーでは、同じ知識の意味の下にある構文と表現力のある分布がさまざまにドリフトする可能性のある現実世界のオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを紹介します。
私たちは、それぞれの例が、同じ意味の構造化された知識を持つ文章で構成される知識不変のクリークであるが、異なる構文的で表現力豊かな形で構成される大規模なテストベッドを設計し、注釈します。
堅牢性メトリックをさらに詳しく説明することで、そのパフォーマンスが全体的なクリークで一貫して正確である場合、モデルは堅牢であると判断されます。
過去10年間に公開された典型的なモデルと人気のある大規模な言語モデルで実験を行い、結果は、既存の成功したモデルがイライラする劣化を示し、最大23.43 F1スコアのスコアを示していることを示しています。
当社のリソースとコードは、https://github.com/qijimrc/robustで入手できます。

要約(オリジナル)

The robustness to distribution changes ensures that NLP models can be successfully applied in the realistic world, especially for information extraction tasks. However, most prior evaluation benchmarks have been devoted to validating pairwise matching correctness, ignoring the crucial measurement of robustness. In this paper, we present the first benchmark that simulates the evaluation of open information extraction models in the real world, where the syntactic and expressive distributions under the same knowledge meaning may drift variously. We design and annotate a large-scale testbed in which each example is a knowledge-invariant clique that consists of sentences with structured knowledge of the same meaning but with different syntactic and expressive forms. By further elaborating the robustness metric, a model is judged to be robust if its performance is consistently accurate on the overall cliques. We perform experiments on typical models published in the last decade as well as a popular large language model, the results show that the existing successful models exhibit a frustrating degradation, with a maximum drop of 23.43 F1 score. Our resources and code are available at https://github.com/qijimrc/ROBUST.

arxiv情報

著者 Ji Qi,Chuchun Zhang,Xiaozhi Wang,Kaisheng Zeng,Jifan Yu,Jinxin Liu,Jiuding Sun,Yuxiang Chen,Lei Hou,Juanzi Li,Bin Xu
発行日 2025-02-06 15:40:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction はコメントを受け付けていません

SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities

要約

監視されていないドメイン適応(DA)は、ラベル付きのソースドメインでトレーニングされたモデルを適応させることで構成され、データ分布シフトを備えたラベルのないターゲットドメインでうまく機能します。
文献では多くの方法が提案されていますが、特に監視されていない設定でハイパーパラメーターを選択する際の方法論的な困難により、公正かつ現実的な評価が未解決の問題のままです。
Skada-Benchを使用すると、文献で主に調査されているコンピュータービジョンタスクを超えて、多様なモダリティに関するDAメソッドを評価するフレームワークを提案します。
リウェアライティング、マッピング、サブスペースアライメントなど、既存の浅いアルゴリズムの完全かつ公正な評価を提示します。
現実的なハイパーパラメーターの選択は、ネストされた交差検証とさまざまな監視されていないモデル選択スコアを使用して、画像、テキスト、生物医学、表形式データなどの多様なモダリティ全体で制御されたシフトと現実世界のデータセットを備えたシミュレーションデータセットの両方で実行されます。
当社のベンチマークは、現実的な検証の重要性を強調し、モデル選択アプローチの選択と影響に関する重要な洞察を得て、実際のアプリケーションの実用的なガイダンスを提供します。
Skada-Benchはオープンソースで再現可能であり、再評価する競合他社を必要とせずに、新しいDAメソッド、データセット、およびモデル選択基準で簡単に拡張できます。
Skada-Benchは、githubでhttps://github.com/scikit-adaptation/skada-benchで入手できます。

要約(オリジナル)

Unsupervised Domain Adaptation (DA) consists of adapting a model trained on a labeled source domain to perform well on an unlabeled target domain with some data distribution shift. While many methods have been proposed in the literature, fair and realistic evaluation remains an open question, particularly due to methodological difficulties in selecting hyperparameters in the unsupervised setting. With SKADA-bench, we propose a framework to evaluate DA methods on diverse modalities, beyond computer vision task that have been largely explored in the literature. We present a complete and fair evaluation of existing shallow algorithms, including reweighting, mapping, and subspace alignment. Realistic hyperparameter selection is performed with nested cross-validation and various unsupervised model selection scores, on both simulated datasets with controlled shifts and real-world datasets across diverse modalities, such as images, text, biomedical, and tabular data. Our benchmark highlights the importance of realistic validation and provides practical guidance for real-life applications, with key insights into the choice and impact of model selection approaches. SKADA-bench is open-source, reproducible, and can be easily extended with novel DA methods, datasets, and model selection criteria without requiring re-evaluating competitors. SKADA-bench is available on Github at https://github.com/scikit-adaptation/skada-bench.

arxiv情報

著者 Yanis Lalou,Théo Gnassounou,Antoine Collas,Antoine de Mathelin,Oleksii Kachaiev,Ambroise Odonnat,Alexandre Gramfort,Thomas Moreau,Rémi Flamary
発行日 2025-02-06 15:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ME, stat.ML | SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities はコメントを受け付けていません

OpenRANet: Neuralized Spectrum Access by Joint Subcarrier and Power Allocation with Optimization-based Deep Learning

要約

Open RANとして知られる次世代ラジオアクセスネットワーク(RAN)は、新興衛星テレストリアルシステムを含むワイヤレスセルラーネットワーク向けのAI-Nativeインターフェイスを備えており、その動作に深い学習を不可欠にしています。
このホワイトペーパーでは、オープンランの共同サブキャリアとパワー配分の非コンベックス最適化課題に対処し、総電力消費を最小限に抑えながら、ユーザーが伝送データレートの要件を満たすことを保証します。
Machine-Learning手法を反復的最適化アルゴリズムと統合する最適化ベースのディープラーニングモデルであるOpenRanetを提案します。
元の非凸の問題を、デカップリング、可変変換、および弛緩技術を通じて凸様式に変換することから始めます。
これらのサブ問題は、標準の干渉関数フレームワーク内の反復方法を使用して効率的に解決され、原始二重ソリューションの導出を可能にします。
これらのソリューションは、数値実験に示されているように、機械学習と凸分析と凸分析を組み合わせることにより、制約順守、ソリューションの精度、および計算効率を高めるために、OpenRanet内の凸最適化レイヤーとしてシームレスに統合されます。
OpenRanetは、マルチセルシステム、衛星テレストリアルネットワーク、複雑な電力消費要件を備えた将来のOpen RAN展開など、より広範なシナリオ向けに、リソースに制約のあるAI-Nativeワイヤレス最適化戦略を設計するための基盤としても機能します。

要約(オリジナル)

The next-generation radio access network (RAN), known as Open RAN, is poised to feature an AI-native interface for wireless cellular networks, including emerging satellite-terrestrial systems, making deep learning integral to its operation. In this paper, we address the nonconvex optimization challenge of joint subcarrier and power allocation in Open RAN, with the objective of minimizing the total power consumption while ensuring users meet their transmission data rate requirements. We propose OpenRANet, an optimization-based deep learning model that integrates machine-learning techniques with iterative optimization algorithms. We start by transforming the original nonconvex problem into convex subproblems through decoupling, variable transformation, and relaxation techniques. These subproblems are then efficiently solved using iterative methods within the standard interference function framework, enabling the derivation of primal-dual solutions. These solutions integrate seamlessly as a convex optimization layer within OpenRANet, enhancing constraint adherence, solution accuracy, and computational efficiency by combining machine learning with convex analysis, as shown in numerical experiments. OpenRANet also serves as a foundation for designing resource-constrained AI-native wireless optimization strategies for broader scenarios like multi-cell systems, satellite-terrestrial networks, and future Open RAN deployments with complex power consumption requirements.

arxiv情報

著者 Siya Chen,Chee Wei Tan,Xiangping Zhai,H. Vincent Poor
発行日 2025-02-06 15:51:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, math.IT | OpenRANet: Neuralized Spectrum Access by Joint Subcarrier and Power Allocation with Optimization-based Deep Learning はコメントを受け付けていません

A Generic Method for Fine-grained Category Discovery in Natural Language Texts

要約

粗粒の監督のみを使用したきめの細かいカテゴリーの発見は、費用対効果の高いが挑戦的な作業です。
以前のトレーニング方法は、クエリサンプルを正のサンプルで調整し、ネガから距離を置くことに焦点を当てています。
彼らは、埋め込みスペースでサンプル分布をナビゲートする際に、カテゴリ内およびカテゴリ間のセマンティックなカテゴリのセマンティックなカテゴリの類似性を無視することがよくあります。
さらに、事前に収集されたテストサンプルに依存するいくつかの評価手法は、リアルタイムアプリケーションには不十分です。
これらの欠点に対処するために、新しい客観的関数によって導かれた意味的に類似したテキストの細かいクラスターを正常に検出する方法を導入します。
この方法では、対数空間でセマンティックな類似性を使用して、ユークリッド空間でサンプル分布を導き、細粒カテゴリを表す明確なクラスターを形成します。
また、リアルタイムアプリケーションをサポートするための重心推論メカニズムを提案します。
この方法の有効性は、理論的に正当化され、3つのベンチマークタスクで経験的に確認されています。
提案された目的関数は、複数の対照学習ベースのニューラルモデルに統合されています。
その結果は、既存の最先端のアプローチを精度、調整されたRANDインデックス、および検出された細粒カテゴリの相互情報を正規化した点で上回ります。
コードとデータはコードで入手でき、データはhttps://github.com/changtianluckyforever/f-grained-starで公開されています。

要約(オリジナル)

Fine-grained category discovery using only coarse-grained supervision is a cost-effective yet challenging task. Previous training methods focus on aligning query samples with positive samples and distancing them from negatives. They often neglect intra-category and inter-category semantic similarities of fine-grained categories when navigating sample distributions in the embedding space. Furthermore, some evaluation techniques that rely on pre-collected test samples are inadequate for real-time applications. To address these shortcomings, we introduce a method that successfully detects fine-grained clusters of semantically similar texts guided by a novel objective function. The method uses semantic similarities in a logarithmic space to guide sample distributions in the Euclidean space and to form distinct clusters that represent fine-grained categories. We also propose a centroid inference mechanism to support real-time applications. The efficacy of the method is both theoretically justified and empirically confirmed on three benchmark tasks. The proposed objective function is integrated in multiple contrastive learning based neural models. Its results surpass existing state-of-the-art approaches in terms of Accuracy, Adjusted Rand Index and Normalized Mutual Information of the detected fine-grained categories. Code and data will be available at Code and data are publicly available at https://github.com/changtianluckyforever/F-grained-STAR.

arxiv情報

著者 Chang Tian,Matthew B. Blaschko,Wenpeng Yin,Mingzhe Xing,Yinliang Yue,Marie-Francine Moens
発行日 2025-02-06 15:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Generic Method for Fine-grained Category Discovery in Natural Language Texts はコメントを受け付けていません

Archetypal Analysis for Binary Data

要約

典型的な分析(AA)は、各データポイントが順番にアーキタイプの凸の組み合わせとして再構築され、データポイントの凸の組み合わせを使用して異なるパターンを識別するマトリックス分解法です。
これにより、データ内の異なる側面のトレードオフを表すポリトープを形成します。
AAの既存のほとんどの方法は、継続的なデータ用に設計されており、データ分布の構造を活用しません。
この論文では、バイナリデータの典型的な分析のための2つの新しい最適化フレームワークを提案します。
i)アーキタイプを定義する凸の組み合わせを学習するためのアクティブなセット手順を使用して、効率的な閉じた形式の更新を備えたベルヌーリ分布に基づくAA尤度の2次近似。
ii)ベルヌーウリの尤度ベースのバージョン主要な凸型船体分析(PCHA)アルゴリズムのバージョンは、最小二乗最適化のために元々開発されました。
これらのアプローチを、乗法更新に依存する唯一の既存のバイナリAA手順と比較し、合成データと実際のバイナリデータの両方でそれらの優位性を示します。
特に、AAの提案された最適化フレームワークは、基礎となるデータ分布を反映した調整された尤度関数に基づいて、AAの一般的な効率的な最適化フレームワークを提供する他のデータ分布に簡単に拡張できます。

要約(オリジナル)

Archetypal analysis (AA) is a matrix decomposition method that identifies distinct patterns using convex combinations of the data points denoted archetypes with each data point in turn reconstructed as convex combinations of the archetypes. AA thereby forms a polytope representing trade-offs of the distinct aspects in the data. Most existing methods for AA are designed for continuous data and do not exploit the structure of the data distribution. In this paper, we propose two new optimization frameworks for archetypal analysis for binary data. i) A second order approximation of the AA likelihood based on the Bernoulli distribution with efficient closed-form updates using an active set procedure for learning the convex combinations defining the archetypes, and a sequential minimal optimization strategy for learning the observation specific reconstructions. ii) A Bernoulli likelihood based version of the principal convex hull analysis (PCHA) algorithm originally developed for least squares optimization. We compare these approaches with the only existing binary AA procedure relying on multiplicative updates and demonstrate their superiority on both synthetic and real binary data. Notably, the proposed optimization frameworks for AA can easily be extended to other data distributions providing generic efficient optimization frameworks for AA based on tailored likelihood functions reflecting the underlying data distribution.

arxiv情報

著者 A. Emilie J. Wedenborg,Morten Mørup
発行日 2025-02-06 16:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Archetypal Analysis for Binary Data はコメントを受け付けていません

Bench4Merge: A Comprehensive Benchmark for Merging in Realistic Dense Traffic with Micro-Interactive Vehicles

要約

自律運転の能力は急速に進歩していますが、密集した交通に合併することは依然として重要な課題のままです。このシナリオの多くのモーション計画方法が提案されていますが、それらを評価することは困難です。
既存の閉ループシミュレーターのほとんどは、他の車両のルールベースのコントロールに依存しているため、多様性とランダム性が不足しているため、非常にインタラクティブなシナリオでモーション計画機能を正確に評価できません。
さらに、従来の評価メトリックは、密集したトラフィックでのマージのパフォーマンスを包括的に評価するには不十分です。
これに応じて、統合シナリオにおけるモーション計画機能を評価するための閉ループ評価ベンチマークを提案しました。
私たちのアプローチには、複雑さと多様性を大幅に向上させる微小行動特性を備えた大規模なデータセットで訓練された他の車両が含まれます。
さらに、大規模な言語モデルを活用して各自律型車両が主要道路に合流することを評価することにより、評価メカニズムを再構築しました。
広範な実験により、この評価ベンチマークの高度な性質が実証されています。
このベンチマークを通じて、既存の方法の評価を取得し、一般的な問題を特定しました。
私たちが設計した環境および車両モーション計画モデルには、https://anonymous.4open.science/r/bench4merge-eb5dでアクセスできます。

要約(オリジナル)

While the capabilities of autonomous driving have advanced rapidly, merging into dense traffic remains a significant challenge, many motion planning methods for this scenario have been proposed but it is hard to evaluate them. Most existing closed-loop simulators rely on rule-based controls for other vehicles, which results in a lack of diversity and randomness, thus failing to accurately assess the motion planning capabilities in highly interactive scenarios. Moreover, traditional evaluation metrics are insufficient for comprehensively evaluating the performance of merging in dense traffic. In response, we proposed a closed-loop evaluation benchmark for assessing motion planning capabilities in merging scenarios. Our approach involves other vehicles trained in large scale datasets with micro-behavioral characteristics that significantly enhance the complexity and diversity. Additionally, we have restructured the evaluation mechanism by leveraging large language models to assess each autonomous vehicle merging onto the main road. Extensive experiments have demonstrated the advanced nature of this evaluation benchmark. Through this benchmark, we have obtained an evaluation of existing methods and identified common issues. The environment and vehicle motion planning models we have designed can be accessed at https://anonymous.4open.science/r/Bench4Merge-EB5D

arxiv情報

著者 Zhengming Wang,Junli Wang,Pengfei Li,Zhaohan Li,Peng Li,Yilun Chen
発行日 2025-02-06 16:05:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Bench4Merge: A Comprehensive Benchmark for Merging in Realistic Dense Traffic with Micro-Interactive Vehicles はコメントを受け付けていません

Model Human Learners: Computational Models to Guide Instructional Design

要約

教育デザイナーは、圧倒的なデザインの選択に直面しており、最も効果的な介入を特定することが困難になります。
この問題に対処するために、モデルの人間学習者の概念を提案します。これは、設計者が候補者の介入を評価するのに役立つ統一された学習モデルである学習の統一された計算モデルです。
このホワイトペーパーでは、この概念の最初の成功したデモンストレーションを示し、計算モデルが2つのヒトA/B実験の結果を正確に予測できることを示しています。
また、このようなモデルは、人間のデータを必要とせずに学習曲線を生成し、教育的介入が効果的である理由についての理論的な洞察を提供できることを示しています。
これらの調査結果は、認知理論と学習理論を統合して、多様なタスクと介入にわたって教育設計をサポートする将来のモデル学習者の基礎を築きます。

要約(オリジナル)

Instructional designers face an overwhelming array of design choices, making it challenging to identify the most effective interventions. To address this issue, I propose the concept of a Model Human Learner, a unified computational model of learning that can aid designers in evaluating candidate interventions. This paper presents the first successful demonstration of this concept, showing that a computational model can accurately predict the outcomes of two human A/B experiments — one testing a problem sequencing intervention and the other testing an item design intervention. It also demonstrates that such a model can generate learning curves without requiring human data and provide theoretical insights into why an instructional intervention is effective. These findings lay the groundwork for future Model Human Learners that integrate cognitive and learning theories to support instructional design across diverse tasks and interventions.

arxiv情報

著者 Christopher J. MacLellan
発行日 2025-02-06 16:11:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.SC | Model Human Learners: Computational Models to Guide Instructional Design はコメントを受け付けていません

The Best Instruction-Tuning Data are Those That Fit

要約

高品質の監視された微調整(SFT)データは、前処理された大手言語モデル(LLM)から強力な機能を引き出すために重要です。
通常、指示は他のLLMからサンプリングされた複数の応答とペアになります。これは、微調整されるターゲットモデルの分布から外れていることがよくあります。
これは、大規模に、リターンの減少につながり、モデルのパフォーマンスと堅牢性を損なうことさえあります。
ターゲットモデルのユニークな特性を説明する新しいSFTフレームワークである** Grape **を提案します。
各命令について、さまざまなLLMSから応答を収集し、ターゲットモデルによって測定された確率が最も高いものを選択し、ターゲットモデルの前提条件の分布と最も密接に整合していることを示します。
その後、標準のSFTトレーニングで進みます。
最初に、複数のモデルからultrainteractの各質問のさまざまなソリューションをサンプリングし、グレープ選択でllama3.1-8b、mistral-7b、qwen2.5-7bなどの一般的に使用されるLMSの微調整の各質問のさまざまなソリューションをサンプリングします。
データ。
Grapeは、最大13.8%の絶対的なゲインで最も強力なモデルからの蒸留、ベンチマーク全体で平均され、最大パフォーマンス改善が17.3%である3倍のデータでトレーニングを含む、強力なベースラインを大幅に上回ることを大幅に上回ります。
Grapeの強力なパフォーマンスは、現実的な設定に一般化されます。
TULU3およびOLMO-2に使用されるトレーニング後のデータを実験します。
Grapeは、4.5倍のデータでトレーニングされた強力なベースラインを6.1%上回り、最先端のデータ選択アプローチを平均パフォーマンスで3%上回ります。
驚くべきことに、データの1/3とエポックの半分を使用して、GrapeによりLlama3.1-8BがTulu3-sftの性能を3.5%上回ることができます。

要約(オリジナル)

High-quality supervised fine-tuning (SFT) data are crucial for eliciting strong capabilities from pretrained large language models (LLMs). Typically, instructions are paired with multiple responses sampled from other LLMs, which are often out of the distribution of the target model to be fine-tuned. This, at scale, can lead to diminishing returns and even hurt the models’ performance and robustness. We propose **GRAPE**, a novel SFT framework that accounts for the unique characteristics of the target model. For each instruction, it gathers responses from various LLMs and selects the one with the highest probability measured by the target model, indicating that it aligns most closely with the target model’s pretrained distribution; it then proceeds with standard SFT training. We first evaluate GRAPE with a controlled experiment, where we sample various solutions for each question in UltraInteract from multiple models and fine-tune commonly used LMs like LLaMA3.1-8B, Mistral-7B, and Qwen2.5-7B on GRAPE-selected data. GRAPE significantly outperforms strong baselines, including distilling from the strongest model with an absolute gain of up to 13.8%, averaged across benchmarks, and training on 3x more data with a maximum performance improvement of 17.3%. GRAPE’s strong performance generalizes to realistic settings. We experiment with the post-training data used for Tulu3 and Olmo-2. GRAPE outperforms strong baselines trained on 4.5 times more data by 6.1% and a state-of-the-art data selection approach by 3% on average performance. Remarkably, using 1/3 of the data and half the number of epochs, GRAPE enables LLaMA3.1-8B to surpass the performance of Tulu3-SFT by 3.5%.

arxiv情報

著者 Dylan Zhang,Qirun Dai,Hao Peng
発行日 2025-02-06 16:31:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | The Best Instruction-Tuning Data are Those That Fit はコメントを受け付けていません

Algorithmic causal structure emerging through compression

要約

因果関係、対称性、および圧縮の関係を調査します。
因果モデルが識別できない設定への学習と圧縮の間の既知の接続を構築し、一般化します。
複数の環境でデータを圧縮した結果として因果関係が現れるフレームワークを提案します。
アルゴリズムの因果関係は、因果関係の因果関係の伝統的な仮定が成り立たない場合の因果関係の代替定義として定義します。
介入ターゲットの知識なしに、コルモゴロフの複雑さの上限を最小限に抑えることで、アルゴリズムの因果構造と対称構造がどのように出現するかを示します。
これらの洞察は、因果関係が明示的に識別できない大規模な言語モデルなど、機械学習モデルの因果関係の出現についても新しい視点を提供する可能性があると仮定します。

要約(オリジナル)

We explore the relationship between causality, symmetry, and compression. We build on and generalize the known connection between learning and compression to a setting where causal models are not identifiable. We propose a framework where causality emerges as a consequence of compressing data across multiple environments. We define algorithmic causality as an alternative definition of causality when traditional assumptions for causal identifiability do not hold. We demonstrate how algorithmic causal and symmetric structures can emerge from minimizing upper bounds on Kolmogorov complexity, without knowledge of intervention targets. We hypothesize that these insights may also provide a novel perspective on the emergence of causality in machine learning models, such as large language models, where causal relationships may not be explicitly identifiable.

arxiv情報

著者 Liang Wendong,Simon Buchholz,Bernhard Schölkopf
発行日 2025-02-06 16:50:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.IT, cs.LG, math.IT | Algorithmic causal structure emerging through compression はコメントを受け付けていません