TuneNSearch: a hybrid transfer learning and local search approach for solving vehicle routing problems

要約

このペーパーでは、ハイブリッド転送学習と、車両ルーティングの問題(VRP)のさまざまなバリエーションに対処するためのローカル検索アプローチであるTunensearchを紹介します。
最近、マルチタスク学習はVRPバリアントを解くために多くの注目を集めています。
ただし、この適応性はしばしばモデルのパフォーマンスを損ないます。
この課題に対処するために、最初にマルチデポットVRPの補強学習モデルを事前に訓練し、それに続いて短い微調整フェーズが続き、異なるバリアントに適応します。
マルチデポットVRPの複雑さを活用することにより、事前に訓練されたモデルは、より豊富なノード表現を学習し、旅行セールスマンの問題などのより単純なルーティングの問題でトレーニングされたモデルと比較して、より移転可能な知識を獲得します。
Tunensearchは、最初の段階では、変圧器ベースのアーキテクチャを採用し、残留エッジグラフ注意ネットワークで増強して、エッジ距離とレイヤー間の残留接続の影響をキャプチャします。
このアーキテクチャにより、グラフ構造データをより正確にキャプチャできるようになり、VRPの機能のエンコードが改善されます。
推論後、私たちのモデルは、ローカル検索アルゴリズムで構成される第2段階と結び付けられており、最小限の計算オーバーヘッドを追加して、かなりのパフォーマンスの向上をもたらします。
結果は、Tunensearchが各VRPバリアントに対してトレーニングされた多くの既存の最先端モデルよりも優れていることを示しており、トレーニングエポックの5分の1のみが必要です。
私たちのアプローチは、さまざまなタスク、分布、問題の大きさで高いパフォーマンスを達成し、文献の長年のギャップに対処する強力な一般化を実証しています。

要約(オリジナル)

This paper introduces TuneNSearch, a hybrid transfer learning and local search approach for addressing different variants of vehicle routing problems (VRP). Recently, multi-task learning has gained much attention for solving VRP variants. However, this adaptability often compromises the performance of the models. To address this challenge, we first pre-train a reinforcement learning model on the multi-depot VRP, followed by a short fine-tuning phase to adapt it to different variants. By leveraging the complexity of the multi-depot VRP, the pre-trained model learns richer node representations and gains more transferable knowledge compared to models trained on simpler routing problems, such as the traveling salesman problem. TuneNSearch employs, in the first stage, a Transformer-based architecture, augmented with a residual edge-graph attention network to capture the impact of edge distances and residual connections between layers. This architecture allows for a more precise capture of graph-structured data, improving the encoding of VRP’s features. After inference, our model is also coupled with a second stage composed of a local search algorithm, which yields substantial performance gains with minimal computational overhead added. Results show that TuneNSearch outperforms many existing state-of-the-art models trained for each VRP variant, requiring only one-fifth of the training epochs. Our approach demonstrates strong generalization, achieving high performance across different tasks, distributions and problem sizes, thus addressing a long-standing gap in the literature.

arxiv情報

著者 Arthur Corrêa,Cristóvão Silva,Liming Xu,Alexandra Brintrup,Samuel Moniz
発行日 2025-05-14 17:20:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | TuneNSearch: a hybrid transfer learning and local search approach for solving vehicle routing problems はコメントを受け付けていません

Rhomboid Tiling for Geometric Graph Deep Learning

要約

グラフニューラルネットワーク(GNNS)は、近隣ベースのメッセージパスフレームワークを介してグラフ構造データから学習するのに効果的であることが証明されています。
多くの階層的なグラフクラスタリングプーリング方法は、クラスタリングベースの戦略を導入し、より表現力豊かで強力なモデルの構築を可能にすることにより、このフレームワークを変更します。
ただし、これらのメッセージパスフレームワークはすべて、グラフの接続構造に大きく依存しており、幾何学的グラフに固有の豊富な幾何学的特徴をキャプチャする能力を制限しています。
これに対処するために、Rhomboidタイル(RT)クラスタリングを提案します。これは、データの複雑な幾何学的情報を活用し、その高次の幾何学的構造を効果的に抽出することによりクラスタリングを実行する菱形タイル構造に基づく新しいクラスタリング方法です。
さらに、グラフ分類タスクのRTクラスタリングに基づいて、階層グラフクラスタリングプーリングモデルであるRtpoolを設計します。
提案されたモデルは、優れたパフォーマンスを示し、7つのベンチマークデータセットすべてで21の最先端の競合他社よりも優れています。

要約(オリジナル)

Graph Neural Networks (GNNs) have proven effective for learning from graph-structured data through their neighborhood-based message passing framework. Many hierarchical graph clustering pooling methods modify this framework by introducing clustering-based strategies, enabling the construction of more expressive and powerful models. However, all of these message passing framework heavily rely on the connectivity structure of graphs, limiting their ability to capture the rich geometric features inherent in geometric graphs. To address this, we propose Rhomboid Tiling (RT) clustering, a novel clustering method based on the rhomboid tiling structure, which performs clustering by leveraging the complex geometric information of the data and effectively extracts its higher-order geometric structures. Moreover, we design RTPool, a hierarchical graph clustering pooling model based on RT clustering for graph classification tasks. The proposed model demonstrates superior performance, outperforming 21 state-of-the-art competitors on all the 7 benchmark datasets.

arxiv情報

著者 Yipeng Zhang,Longlong Li,Kelin Xia
発行日 2025-05-14 17:37:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Rhomboid Tiling for Geometric Graph Deep Learning はコメントを受け付けていません

Online Isolation Forest

要約

異常検出の文献は、メモリ内のデータへの繰り返しのアクセスが必要であり、ストリーミングコンテキストに適用される場合に非現実的な仮定を課すオフライン方法が豊富です。
既存のオンライン異常検出方法も、一般にこれらの制約に対処できず、オンラインコンテキストに適応するために定期的な再訓練に頼っています。
オンラインIforestを提案します。これは、時間の経過とともに進化するデータ生成プロセスをシームレスに追跡するストリーミング条件向けに明示的に設計された新しい方法です。
現実世界のデータセットでの実験的検証は、オンライン – フォレストがオンラインの代替品と同等であり、定期的な再訓練を受ける最先端のオフライン異常検出技術と密接にライバルであることを実証しました。
特に、オンラインIFORESTは、すべての競合他社が効率性の点で一貫して優れているため、異常の迅速な識別がサイバーセキュリティ、詐欺、障害検出などの主要な重要性があるアプリケーションで有望なソリューションとなっています。

要約(オリジナル)

The anomaly detection literature is abundant with offline methods, which require repeated access to data in memory, and impose impractical assumptions when applied to a streaming context. Existing online anomaly detection methods also generally fail to address these constraints, resorting to periodic retraining to adapt to the online context. We propose Online-iForest, a novel method explicitly designed for streaming conditions that seamlessly tracks the data generating process as it evolves over time. Experimental validation on real-world datasets demonstrated that Online-iForest is on par with online alternatives and closely rivals state-of-the-art offline anomaly detection techniques that undergo periodic retraining. Notably, Online-iForest consistently outperforms all competitors in terms of efficiency, making it a promising solution in applications where fast identification of anomalies is of primary importance such as cybersecurity, fraud and fault detection.

arxiv情報

著者 Filippo Leveni,Guilherme Weigert Cassales,Bernhard Pfahringer,Albert Bifet,Giacomo Boracchi
発行日 2025-05-14 17:42:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Online Isolation Forest はコメントを受け付けていません

Adversarial Suffix Filtering: a Defense Pipeline for LLMs

要約

大規模な言語モデル(LLM)は、自律システムと公共向け環境にますます組み込まれていますが、セキュリティと信頼性を損なう可能性のある脆弱性の影響を受けやすいままです。
敵対的な接尾辞は、現在の最先端の脱獄であり、一貫してよりシンプルな方法を上回っており、ブラックボックスの設定でも頻繁に成功すると考えられています。
既存の防御は、多様な展開を制限するモデルの内部アーキテクチャへのアクセスに依存しています。
$ \ textBf {逆面の接尾辞フィルタリング} $(ASF)を紹介します。これは、LLMSを敵対的な接尾辞攻撃から保護するために設計された軽量の新規モデルに依存しない防御パイプラインです。
ASFは、プロンプトで敵対的に作られた接尾辞を検出およびフィルターし、悪意のある注射を効果的に中和する入力前処理器と消毒剤として機能します。
ASFは、ブラックボックスとホワイトボックスの両方の攻撃設定で包括的な防御機能を提供し、最先端の敵対的な接尾辞生成方法の攻撃効果を4%未満に低下させ、非逆数シナリオでのターゲットモデルの機能に最小限に影響するだけであることを実証します。

要約(オリジナル)

Large Language Models (LLMs) are increasingly embedded in autonomous systems and public-facing environments, yet they remain susceptible to jailbreak vulnerabilities that may undermine their security and trustworthiness. Adversarial suffixes are considered to be the current state-of-the-art jailbreak, consistently outperforming simpler methods and frequently succeeding even in black-box settings. Existing defenses rely on access to the internal architecture of models limiting diverse deployment, increase memory and computation footprints dramatically, or can be bypassed with simple prompt engineering methods. We introduce $\textbf{Adversarial Suffix Filtering}$ (ASF), a lightweight novel model-agnostic defensive pipeline designed to protect LLMs against adversarial suffix attacks. ASF functions as an input preprocessor and sanitizer that detects and filters adversarially crafted suffixes in prompts, effectively neutralizing malicious injections. We demonstrate that ASF provides comprehensive defense capabilities across both black-box and white-box attack settings, reducing the attack efficacy of state-of-the-art adversarial suffix generation methods to below 4%, while only minimally affecting the target model’s capabilities in non-adversarial scenarios.

arxiv情報

著者 David Khachaturov,Robert Mullins
発行日 2025-05-14 17:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Adversarial Suffix Filtering: a Defense Pipeline for LLMs はコメントを受け付けていません

DataMIL: Selecting Data for Robot Imitation Learning with Datamodels

要約

最近、Roboticsコミュニティは、より大きく、より多様なデータセットを蓄積し、ジェネラリストのロボットポリシーをトレーニングしています。
ただし、これらのポリシーはさまざまなタスクにわたって強力な平均パフォーマンスを実現しますが、多くの場合、個々の専門的なタスクでパフォーマンスが低く、新たに獲得したタスク固有のデータをさらに調整する必要があります。
タスク固有のデータと、共同トレーニングを介して大規模な以前のデータセットの慎重にキュレーションされたサブセットと組み合わせると、より良い専門的なポリシーが生成される可能性がありますが、データを単純に選択すると、実際には下流のパフォーマンスに害を及ぼす可能性があります。
これに対処するために、データモデルのパラダイムに基づいて構築されたポリシー駆動型のデータ選択フレームワークであるDatamilを紹介します。これは、ポリシー自体を使用してパフォーマンスを最も改善するデータポイント自体を識別するために、エンドツーエンドの方法でデータ選択に関する理由です。
品質の人間の概念を使用してデータをフィルタリングする標準的なプラクティス(例えば、セマンティックまたは視覚的類似性に基づいて)とは異なり、Datamilはタスクの成功のためにデータの選択を直接最適化し、それを劣化させるデータを削除しながらポリシーを強化するデータを選択することができます。
選択中に環境で高価なロールアウトを実行することを避けるために、タスク固有のデータで新しいサロゲート損失関数を使用して、パフォーマンスを低下させることなく現実世界でDatamilを使用できるようにします。
60を超えるシミュレーションと現実世界の操作タスクのスイートでアプローチを検証します。最も顕著に、オープンX編集データセットからの成功したデータ選択を、成功率と複数のベースラインでの優れたパフォーマンスの一貫した向上を実現することを示しています。
私たちの結果は、ロボット工学における大規模な以前のデータセットの可能性を解き放つためのエンドツーエンドのパフォーマンス対応データ選択の重要性を強調しています。
詳細については、https://robin-lab.cs.utexas.edu/datamodels4imitation/

要約(オリジナル)

Recently, the robotics community has amassed ever larger and more diverse datasets to train generalist robot policies. However, while these policies achieve strong mean performance across a variety of tasks, they often underperform on individual, specialized tasks and require further tuning on newly acquired task-specific data. Combining task-specific data with carefully curated subsets of large prior datasets via co-training can produce better specialized policies, but selecting data naively may actually harm downstream performance. To address this, we introduce DataMIL, a policy-driven data selection framework built on the datamodels paradigm that reasons about data selection in an end-to-end manner, using the policy itself to identify which data points will most improve performance. Unlike standard practices that filter data using human notions of quality (e.g., based on semantic or visual similarity), DataMIL directly optimizes data selection for task success, allowing us to select data that enhance the policy while dropping data that degrade it. To avoid performing expensive rollouts in the environment during selection, we use a novel surrogate loss function on task-specific data, allowing us to use DataMIL in the real world without degrading performance. We validate our approach on a suite of more than 60 simulation and real-world manipulation tasks – most notably showing successful data selection from the Open X-Embodiment datasets-demonstrating consistent gains in success rates and superior performance over multiple baselines. Our results underscore the importance of end-to-end, performance-aware data selection for unlocking the potential of large prior datasets in robotics. More information at https://robin-lab.cs.utexas.edu/datamodels4imitation/

arxiv情報

著者 Shivin Dass,Alaa Khaddaj,Logan Engstrom,Aleksander Madry,Andrew Ilyas,Roberto Martín-Martín
発行日 2025-05-14 17:55:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | DataMIL: Selecting Data for Robot Imitation Learning with Datamodels はコメントを受け付けていません

Adaptively-weighted Nearest Neighbors for Matrix Completion

要約

このテクニカルノートでは、AWNNを紹介および分析します。マトリックス完了を実行するための適応的に加重最近隣接方法です。
最近傍(NN)メソッドは、推奨システムなどの複数の分野で欠落したデータの問題や、パネルデータ設定で反事実的推論を実行するために広く使用されています。
以前の作品は、非常に直感的で実装しやすいことに加えて、NNメソッドが優れた理論的保証を楽しむことを示しています。
ただし、NNメソッドの大部分のパフォーマンスは、最近隣接セットの各メンバーに割り当てられた半径と重量の適切な選択に依存しており、過去20年間に最近隣接の方法に関するいくつかの作業にもかかわらず、クロスバリッド化などの方法に依存することなく、半径と重みを選択する体系的なアプローチは存在しません。
AWNNは、重み付けされた最近隣人回帰に固有のバイアス分散トレードオフのバランスを慎重にバランスさせることにより、この課題に対処します。
最小限の仮定の下で提案された方法の理論的保証を提供し、合成実験を介して理論をサポートします。

要約(オリジナル)

In this technical note, we introduce and analyze AWNN: an adaptively weighted nearest neighbor method for performing matrix completion. Nearest neighbor (NN) methods are widely used in missing data problems across multiple disciplines such as in recommender systems and for performing counterfactual inference in panel data settings. Prior works have shown that in addition to being very intuitive and easy to implement, NN methods enjoy nice theoretical guarantees. However, the performance of majority of the NN methods rely on the appropriate choice of the radii and the weights assigned to each member in the nearest neighbor set and despite several works on nearest neighbor methods in the past two decades, there does not exist a systematic approach of choosing the radii and the weights without relying on methods like cross-validation. AWNN addresses this challenge by judiciously balancing the bias variance trade off inherent in weighted nearest-neighbor regression. We provide theoretical guarantees for the proposed method under minimal assumptions and support the theory via synthetic experiments.

arxiv情報

著者 Tathagata Sadhukhan,Manit Paul,Raaz Dwivedi
発行日 2025-05-14 17:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ME, stat.ML, stat.TH | Adaptively-weighted Nearest Neighbors for Matrix Completion はコメントを受け付けていません

Clicking some of the silly options: Exploring Player Motivation in Static and Dynamic Educational Interactive Narratives

要約

モチベーションは、成功する学習の根底にある重要な要素です。
以前の研究では、静的なインタラクティブな物語ゲームが動機付けに与えるプラスの効果を実証しています。
同時に、AIの進歩により、インタラクティブな物語に対する動的かつ適応的なアプローチがますますアクセス可能になりました。
しかし、限られた作業により、ダイナミックな物語が学習者の動機付けに与える影響が調査されています。
この論文では、研究倫理に関する選択に基づいた教育的インタラクティブな物語ゲームであるアカデミカルの2つのバージョンを比較しています。
1つのバージョンでは、従来の手による分岐プロット(つまり、静的な物語)を採用し、もう1つのバージョンはプレイ中に動的にシーケンスプロット(つまり、動的な物語)を使用します。
結果は、レスポンシブコンテンツの重要性とプレイヤーエンゲージメントのためのさまざまな選択を強調しながら、教育的目標と物語の動的な側面のバランスをとるという課題を示しています。
また、これらの調査結果から生じるデザインの意味についても説明します。
最終的に、この作業は、教育ゲームにおけるAI主導のダイナミックな物語の新たな可能性を明らかにするための初期の手順を提供します。

要約(オリジナル)

Motivation is an important factor underlying successful learning. Previous research has demonstrated the positive effects that static interactive narrative games can have on motivation. Concurrently, advances in AI have made dynamic and adaptive approaches to interactive narrative increasingly accessible. However, limited work has explored the impact that dynamic narratives can have on learner motivation. In this paper, we compare two versions of Academical, a choice-based educational interactive narrative game about research ethics. One version employs a traditional hand-authored branching plot (i.e., static narrative) while the other dynamically sequences plots during play (i.e., dynamic narrative). Results highlight the importance of responsive content and a variety of choices for player engagement, while also illustrating the challenge of balancing pedagogical goals with the dynamic aspects of narrative. We also discuss design implications that arise from these findings. Ultimately, this work provides initial steps to illuminate the emerging potential of AI-driven dynamic narrative in educational games.

arxiv情報

著者 Daeun Hwang,Samuel Shields,Alex Calderwood,Shi Johnson-Bey,Michael Mateas,Noah Wardrip-Fruin,Edward F. Melcer
発行日 2025-05-13 18:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Clicking some of the silly options: Exploring Player Motivation in Static and Dynamic Educational Interactive Narratives はコメントを受け付けていません

Performance Gains of LLMs With Humans in a World of LLMs Versus Humans

要約

現在、LLMの専門家のグループをLLMのグループと比較することにかなりの研究努力が捧げられています。「専門家」という用語は、LLMリリースを絶えず更新する状態で、しばしば不明確または変数です。
適切な保護措置が整っていないため、LLMSは、患者の安全性を最前線に維持するために歴史を通じて慎重に開発された患者ケアの安全な配達の確立された構造に害を及ぼすと脅します。
LLMイノベーションの主要な推進力は、コミュニティ研究の取り組みに基づいています。これは、「人間対LLMS」の原則の下で活動し続けると、この傾向を促進します。
したがって、前進する研究の取り組みは、新しいLLMモデルの急速な発展全体にわたって持続する臨床環境でのLLMの安全な使用を効果的に特徴付けることに焦点を当てる必要があります。
このコミュニケーションでは、LLMを人間と比較するのではなく、人間の効率的な作業をLLMSで効率的な作業を可能にする戦略を開発する必要があることを示しています。

要約(オリジナル)

Currently, a considerable research effort is devoted to comparing LLMs to a group of human experts, where the term ‘expert’ is often ill-defined or variable, at best, in a state of constantly updating LLM releases. Without proper safeguards in place, LLMs will threaten to cause harm to the established structure of safe delivery of patient care which has been carefully developed throughout history to keep the safety of the patient at the forefront. A key driver of LLM innovation is founded on community research efforts which, if continuing to operate under ‘humans versus LLMs’ principles, will expedite this trend. Therefore, research efforts moving forward must focus on effectively characterizing the safe use of LLMs in clinical settings that persist across the rapid development of novel LLM models. In this communication, we demonstrate that rather than comparing LLMs to humans, there is a need to develop strategies enabling efficient work of humans with LLMs in an almost symbiotic manner.

arxiv情報

著者 Lucas McCullum,Pelagie Ami Agassi,Leo Anthony Celi,Daniel K. Ebner,Chrystinne Oliveira Fernandes,Rachel S. Hicklen,Mkliwa Koumbia,Lisa Soleymani Lehmann,David Restrepo
発行日 2025-05-13 18:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | Performance Gains of LLMs With Humans in a World of LLMs Versus Humans はコメントを受け付けていません

Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora

要約

言語モデル(LMS)は引き続き前進し、応答の品質と一貫性を向上させます。
インターネットスケールのトレーニングデータセットを考えると、LMSは、トレーニング中に何らかの形で生成するようにユーザーが依頼する可能性のあるものの多くに遭遇した可能性があります。
モデルの品質、応答の適切性、および推論能力を評価するために、多数の評価ベンチマークが構築されています。
ただし、ベンチマークの構築に必要な人間の努力は限られており、評価中のモデルのサイズと範囲によって急速に追い越されています。
さらに、人間に対象のあらゆる可能な領域のベンチマークを構築することは非現実的です。
したがって、ドキュメント集団に基づいた事実ベースの合成データモデル評価の構築を自動化するための方法論を提案します。
この作業は、それらのまったく同じLMSを活用して、ドメイン固有の知識を自動的に評価し、接地ドキュメントのみ(教科書など)のみを入力として使用します。
この合成データベンチマークアプローチは、スピアマンランキングの0.96とベンチマーク評価のピアソン精度相関を伴う人間のキュレーションされた質問によく対応しています。
この新しいツールは、複数選択と自由回答形式の合成データの両方の質問を生成して、LM機能の診断洞察を得ることをサポートしています。
この方法論を適用して、最近の関連するARXIVプレプリントでモデルパフォーマンスを評価し、GEMMA3モデルの驚くほど強力なパフォーマンスを発見します。

要約(オリジナル)

Language Models (LMs) continue to advance, improving response quality and coherence. Given Internet-scale training datasets, LMs have likely encountered much of what users might ask them to generate in some form during their training. A plethora of evaluation benchmarks have been constructed to assess model quality, response appropriateness, and reasoning capabilities. However, the human effort required for benchmark construction is limited and being rapidly outpaced by the size and scope of the models under evaluation. Additionally, having humans build a benchmark for every possible domain of interest is impractical. Therefore, we propose a methodology for automating the construction of fact-based synthetic data model evaluations grounded in document populations. This work leverages those very same LMs to evaluate domain-specific knowledge automatically, using only grounding documents (e.g., a textbook) as input. This synthetic data benchmarking approach corresponds well with human curated questions with a Spearman ranking correlation of 0.96 and a benchmark evaluation Pearson accuracy correlation of 0.79. This novel tool supports generating both multiple choice and open-ended synthetic data questions to gain diagnostic insight of LM capability. We apply this methodology to evaluate model performance on a recent relevant arXiv preprint, discovering a surprisingly strong performance from Gemma3 models.

arxiv情報

著者 Michael Majurski,Cynthia Matuszek
発行日 2025-05-13 18:50:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora はコメントを受け付けていません

Principled Data Selection for Alignment: The Hidden Risks of Difficult Examples

要約

大規模な言語モデル(LLMS)の整合性は、よりきれいなデータを使用すると、モデル容量と例の難易度との一致を見落とすことがより良い結果が得られることを想定しています。
これに挑戦すると、新しい原則を提案します。優先データの難易度はさまざまであり、モデルの容量を超えることにより、アラインメントを妨げる非常に困難な例です。
体系的な実験を通じて、この原則を3つの重要な調査結果で検証します。(1)アライメント実行全体の一貫した学習順序によって証明されるように、好みの例は難易度が異なります。
(2)4つのLLMと2つのデータセットで、過度に困難な例がパフォーマンスを大幅に低下させます。
(3)モデルの能力は、データ選択とモデル容量の間の重要な関係を強調し、難しい例を処理するためのしきい値を決定します。
この原則に基づいて、選択的なDPOを導入します。これは、非常に難しい例を除去します。
この単純な調整により、Alpacaeval 2ベンチマークのWINベースラインと比較して、Alignment PerformanceがAlpacaeval 2ベンチマークで9〜16%向上し、異なるアルゴリズム調整を伴う一連のDPOバリアントを抑制します。
一緒に、これらの結果は、データの難易度をモデル容量に合わせることの重要性を明らかにし、LLMSのアライメント戦略を改善するための変革的視点を提供します。
コードはhttps://github.com/glorgao/selectivedpoで入手できます。

要約(オリジナル)

The alignment of large language models (LLMs) often assumes that using more clean data yields better outcomes, overlooking the match between model capacity and example difficulty. Challenging this, we propose a new principle: Preference data vary in difficulty, and overly difficult examples hinder alignment, by exceeding the model’s capacity. Through systematic experimentation, we validate this principle with three key findings: (1) preference examples vary in difficulty, as evidenced by consistent learning orders across alignment runs; (2) overly difficult examples significantly degrade performance across four LLMs and two datasets; and (3) the capacity of a model dictates its threshold for handling difficult examples, underscoring a critical relationship between data selection and model capacity. Building on this principle, we introduce Selective DPO, which filters out overly difficult examples. This simple adjustment improves alignment performance by 9-16% in win rates on the AlpacaEval 2 benchmark compared to the DPO baseline, suppressing a series of DPO variants with different algorithmic adjustments. Together, these results illuminate the importance of aligning data difficulty with model capacity, offering a transformative perspective for improving alignment strategies in LLMs. Code is available at https://github.com/glorgao/SelectiveDPO.

arxiv情報

著者 Chengqian Gao,Haonan Li,Liu Liu,Zeke Xie,Peilin Zhao,Zhiqiang Xu
発行日 2025-05-13 18:54:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Principled Data Selection for Alignment: The Hidden Risks of Difficult Examples はコメントを受け付けていません