Implicit Bias in LLMs: A Survey

要約

開発者によるGuardRailsの実装により、大規模な言語モデル(LLM)は、明示的なバイアステストで例外的なパフォーマンスを実証しています。
ただし、LLMのバイアスは、明示的にだけでなく、暗黙的にも、暗黙的に努力しているが、それでも暗黙のバイアスを抱いている人間と同じように発生する可能性があります。
暗黙のバイアスの無意識で自動的な性質により、勉強するのは特に困難です。
このペーパーでは、LLMSの暗黙的バイアスに関する既存の文献の包括的なレビューを提供します。
まず、心理学における暗黙のバイアスに関連する重要な概念、理論、および方法を導入し、それらを人間からLLMに拡張することから始めます。
暗黙的な関連性テスト(IAT)およびその他の心理的枠組みに基づいて、検出方法を3つの主要なアプローチ、ワード関連、タスク指向のテキスト生成、意思決定の3つの主要なアプローチに分類します。
暗黙のバイアスのための評価メトリックの分類法を、単一値ベースのメトリックと比較価値ベースのメトリックの2つのカテゴリに分けます。
データセットを2つのタイプに分類します。マスクされたトークンと完全な文を使用した文で、LLMの広範なアプリケーションを反映するためにさまざまなドメインのデータセットを組み込みます。
LLMSにおける暗黙のバイアスの緩和に関する研究はまだ限られていますが、既存の努力を要約し、将来の課題に関する洞察を提供します。
この作業は、研究者のための明確なガイドとして機能し、革新的なアイデアを刺激して、このタスクの探索を促進することを目指しています。

要約(オリジナル)

Due to the implement of guardrails by developers, Large language models (LLMs) have demonstrated exceptional performance in explicit bias tests. However, bias in LLMs may occur not only explicitly, but also implicitly, much like humans who consciously strive for impartiality yet still harbor implicit bias. The unconscious and automatic nature of implicit bias makes it particularly challenging to study. This paper provides a comprehensive review of the existing literature on implicit bias in LLMs. We begin by introducing key concepts, theories and methods related to implicit bias in psychology, extending them from humans to LLMs. Drawing on the Implicit Association Test (IAT) and other psychological frameworks, we categorize detection methods into three primary approaches: word association, task-oriented text generation and decision-making. We divide our taxonomy of evaluation metrics for implicit bias into two categories: single-value-based metrics and comparison-value-based metrics. We classify datasets into two types: sentences with masked tokens and complete sentences, incorporating datasets from various domains to reflect the broad application of LLMs. Although research on mitigating implicit bias in LLMs is still limited, we summarize existing efforts and offer insights on future challenges. We aim for this work to serve as a clear guide for researchers and inspire innovative ideas to advance exploration in this task.

arxiv情報

著者 Xinru Lin,Luyang Li
発行日 2025-03-04 16:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Implicit Bias in LLMs: A Survey はコメントを受け付けていません

IterPref: Focal Preference Learning for Code Generation via Iterative Debugging

要約

優先学習は、相対的な品質比較を活用することにより、監視された微調整を超えてコードLLMを強化します。
既存の方法は、テストケースの成功に基づいて候補者から優先ペアを構築し、より高い合格レートサンプルを正、低いものを負で扱います。
ただし、このアプローチでは、コードの特定のエラーを特定するものではなく、モデルがより有益なエラー修正パターンを学習することを妨げます。これは、障害コード全体が意味のあるエラー解像度関係をキャプチャするために必要な粒度がないためです。
これらの問題に対処するために、コードLLMを絞り込むための人間の反復デバッグを模倣する新しい優先アライメントフレームワークであるIterPrefを提案します。
IterPrefは、エラー領域を明示的に見つけ、調整されたDPOアルゴリズムを介して対応するトークンを整列させます。
有益なペアを生成するために、コードフローデータセットを導入します。このデータセットでは、サンプルがテストに合格するまで繰り返し洗練され、エラー修正をキャプチャします。
大規模な実験では、IterPrefを装備した多様なコードLLMSがコード生成の大幅なパフォーマンスの向上を達成し、BigCodebenchなどの挑戦的なタスクを改善することが示されています。
詳細な分析により、IterPrefのエラーが少ないことが明らかになりました。
私たちのコードとデータはPublicalyを利用可能にします。

要約(オリジナル)

Preference learning enhances Code LLMs beyond supervised fine-tuning by leveraging relative quality comparisons. Existing methods construct preference pairs from candidates based on test case success, treating the higher pass rate sample as positive and the lower as negative. However, this approach does not pinpoint specific errors in the code, which prevents the model from learning more informative error correction patterns, as aligning failing code as a whole lacks the granularity needed to capture meaningful error-resolution relationships. To address these issues, we propose IterPref, a new preference alignment framework that mimics human iterative debugging to refine Code LLMs. IterPref explicitly locates error regions and aligns the corresponding tokens via a tailored DPO algorithm. To generate informative pairs, we introduce the CodeFlow dataset, where samples are iteratively refined until passing tests, with modifications capturing error corrections. Extensive experiments show that a diverse suite of Code LLMs equipped with IterPref achieves significant performance gains in code generation and improves on challenging tasks like BigCodeBench. In-depth analysis reveals that IterPref yields fewer errors. Our code and data will be made publicaly available.

arxiv情報

著者 Jie Wu,Haoling Li,Xin Zhang,Jianwen Luo,Yangyu Huang,Ruihang Chu,Yujiu Yang,Scarlett Li
発行日 2025-03-04 16:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | IterPref: Focal Preference Learning for Code Generation via Iterative Debugging はコメントを受け付けていません

Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing

要約

このペーパーでは、データセットの法的リスクは、ライセンス条件だけでは正確に評価できないと主張しています。
代わりに、データセットの再分配とその完全なライフサイクルの追跡が不可欠です。
ただし、このプロセスは、法律専門家が大規模に手動で処理するには複雑すぎます。
データセットの起源の追跡、再分配権の検証、および複数の段階で進化する法的リスクの評価には、人間の能力を超えるレベルの精度と効率が必要です。
この課題に対処するには、データセットの再分配を体系的に追跡し、コンプライアンスを分析し、法的リスクを特定できるAIエージェントが効果的に要求されます。
Nexusと呼ばれる自動データコンプライアンスシステムを開発し、AIがこれらのタスクを人間の専門家よりも高い精度、効率、費用対効果で実行できることを示しています。
このアプローチを使用した17,429のユニークなエンティティと8,072のライセンス条件の当社の大規模な法的分析は、再分配前の元のデータセットとその再配布されたサブセット間の法的権利の矛盾を明らかにし、データライフサイクルに認識されたコンプライアンスの必要性を強調しています。
たとえば、商業的に実行可能な個別のライセンス条件を持つ2,852のデータセットのうち、商業化には法的に許可されているのは605(21%)のみであることがわかります。
この作業は、AIデータガバナンスの新しい基準を設定し、データセットの再分配のライフサイクル全体を体系的に調べて、透明性、法的、責任あるデータセット管理を確保するフレームワークを提唱します。

要約(オリジナル)

This paper argues that a dataset’s legal risk cannot be accurately assessed by its license terms alone; instead, tracking dataset redistribution and its full lifecycle is essential. However, this process is too complex for legal experts to handle manually at scale. Tracking dataset provenance, verifying redistribution rights, and assessing evolving legal risks across multiple stages require a level of precision and efficiency that exceeds human capabilities. Addressing this challenge effectively demands AI agents that can systematically trace dataset redistribution, analyze compliance, and identify legal risks. We develop an automated data compliance system called NEXUS and show that AI can perform these tasks with higher accuracy, efficiency, and cost-effectiveness than human experts. Our massive legal analysis of 17,429 unique entities and 8,072 license terms using this approach reveals the discrepancies in legal rights between the original datasets before redistribution and their redistributed subsets, underscoring the necessity of the data lifecycle-aware compliance. For instance, we find that out of 2,852 datasets with commercially viable individual license terms, only 605 (21%) are legally permissible for commercialization. This work sets a new standard for AI data governance, advocating for a framework that systematically examines the entire lifecycle of dataset redistribution to ensure transparent, legal, and responsible dataset management.

arxiv情報

著者 Jaekyeom Kim,Sungryull Sohn,Gerrard Jeongwon Jo,Jihoon Choi,Kyunghoon Bae,Hwayoung Lee,Yongmin Park,Honglak Lee
発行日 2025-03-04 16:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing はコメントを受け付けていません

AI Literacy in K-12 and Higher Education in the Wake of Generative AI: An Integrative Review

要約

AIリテラシーは、生成的AIをきっかけに著名な教育トピックとして浮上しましたが、その定義は曖昧なままです。
研究者と実践者の間で、AIリテラシーの介入について議論し、設計する方法についてはほとんどコンセンサスがありません。
この用語は、学部生を訓練してChatGPTを効果的に使用するように訓練する学習活動の両方を説明するために使用されており、幼稚園の子供がソーシャルロボットと交流することです。
このホワイトペーパーでは、2020年以降に公開された経験的および理論的なAIリテラシー研究を調べるための統合レビュー方法を適用します。124のレビューされた研究、リテラシー機能、批判的、および間接的な有益、および3つの視点を概念化する3つの方法と、AI技術的な詳細、ツール、ツール、および社会学的幅の概要を反映する方法を反映する方法を反映する方法についての特定の3つの視点を適用します。
このフレームワークは、AIリテラシーの談話内でより専門的な用語の必要性を強調し、特定のAIリテラシーの目的の研究ギャップを示しています。

要約(オリジナル)

Even though AI literacy has emerged as a prominent education topic in the wake of generative AI, its definition remains vague. There is little consensus among researchers and practitioners on how to discuss and design AI literacy interventions. The term has been used to describe both learning activities that train undergraduate students to use ChatGPT effectively and having kindergarten children interact with social robots. This paper applies an integrative review method to examine empirical and theoretical AI literacy studies published since 2020. In synthesizing the 124 reviewed studies, three ways to conceptualize literacy-functional, critical, and indirectly beneficial-and three perspectives on AI-technical detail, tool, and sociocultural-were identified, forming a framework that reflects the spectrum of how AI literacy is approached in practice. The framework highlights the need for more specialized terms within AI literacy discourse and indicates research gaps in certain AI literacy objectives.

arxiv情報

著者 Xingjian Gu,Barbara J. Ericson
発行日 2025-03-04 17:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, I.2.0 | AI Literacy in K-12 and Higher Education in the Wake of Generative AI: An Integrative Review はコメントを受け付けていません

Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback

要約

複雑な環境内の妨害に直面した正確なモーション制御は、ロボット工学の大きな課題のままです。
古典的なモデルベースのアプローチは、しばしば非線形性や構造化されていない乱れに苦労しますが、RLベースの方法は、目に見えないシナリオに遭遇すると脆弱です。
この論文では、モデルベースのコントロールをRLベースのコントロールと堅牢性を高める新しいフレームワークであるニューラル内部モデル制御を提案します。
私たちのフレームワークは、剛体のダイナミクスにニュートンエウラー方程式を適用し、複雑な高次元の非線形性をキャプチャする必要性を排除することにより、予測モデルを合理化します。
この内部モデルは、モデルフリーのRLアルゴリズムと予測エラーフィードバックを組み合わせています。
このような設計により、閉ループ制御構造が制御システムの堅牢性と一般化可能性を高めることができます。
四つ孔と四角形のロボットの両方でフレームワークの有効性を実証し、最先端の方法と比較して優れたパフォーマンスを実現します。
さらに、ロープ懸濁されたペイロードを備えた四肢装置への実際の展開は、SIMからリアルへの転送におけるフレームワークの堅牢性を強調しています。
私たちのコードはhttps://github.com/thu-uav/neuralimcでリリ​​ースされています。

要約(オリジナル)

Accurate motion control in the face of disturbances within complex environments remains a major challenge in robotics. Classical model-based approaches often struggle with nonlinearities and unstructured disturbances, while RL-based methods can be fragile when encountering unseen scenarios. In this paper, we propose a novel framework, Neural Internal Model Control, which integrates model-based control with RL-based control to enhance robustness. Our framework streamlines the predictive model by applying Newton-Euler equations for rigid-body dynamics, eliminating the need to capture complex high-dimensional nonlinearities. This internal model combines model-free RL algorithms with predictive error feedback. Such a design enables a closed-loop control structure to enhance the robustness and generalizability of the control system. We demonstrate the effectiveness of our framework on both quadrotors and quadrupedal robots, achieving superior performance compared to state-of-the-art methods. Furthermore, real-world deployment on a quadrotor with rope-suspended payloads highlights the framework’s robustness in sim-to-real transfer. Our code is released at https://github.com/thu-uav/NeuralIMC.

arxiv情報

著者 Feng Gao,Chao Yu,Yu Wang,Yi Wu
発行日 2025-03-04 17:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback はコメントを受け付けていません

λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics

要約

長距離モバイル操作タスクを実行することを学ぶことは、家庭および職場の設定でロボット工学を進めるために重要です。
ただし、現在のアプローチは通常、データが効率的であり、効率を評価するために現実的にサイズのベンチマークを必要とする改善されたモデルの必要性を強調しています。
これに対処するために、指示されたアクティビティのモバイル操作ベンチマークのためのLambda({\ lambda})ベンチマーク長型のアクションを紹介します。これは、言語条件付け、マルチルーム、マルチルーム、マルチフロア、マルチフロア、ピックアンドピック、ピックアンドプレイスを使用して、copleasever for copleate for cospoyible for firefibleibleのキャッシュを使用してモデルのデータ効率を評価します。
私たちのベンチマークには、シミュレートされた現実世界の設定におけるリアリズムと多様性を提供する571人の人間が収集したデモが含まれています。
プランナーで生成されたデータとは異なり、これらの軌跡は自然な変動性とリプレイの均等性を提供し、堅牢な学習と評価を確保します。
ラムダを活用して、現在のエンドツーエンドの学習方法と、基礎モデルとタスクとモーションの計画を組み合わせたモジュール式ニューロシンボリックアプローチをベンチマークします。
エンドツーエンドの方法、つまり、前提条件が低い成功率が低い場合、ニューロシンボリック法は大幅に優れており、データが少ないデータが必要になります。

要約(オリジナル)

Learning to execute long-horizon mobile manipulation tasks is crucial for advancing robotics in household and workplace settings. However, current approaches are typically data-inefficient, underscoring the need for improved models that require realistically sized benchmarks to evaluate their efficiency. To address this, we introduce the LAMBDA ({\lambda}) benchmark-Long-horizon Actions for Mobile-manipulation Benchmarking of Directed Activities-which evaluates the data efficiency of models on language-conditioned, long-horizon, multi-room, multi-floor, pick-and-place tasks using a dataset of manageable size, more feasible for collection. Our benchmark includes 571 human-collected demonstrations that provide realism and diversity in simulated and real-world settings. Unlike planner-generated data, these trajectories offer natural variability and replay-verifiability, ensuring robust learning and evaluation. We leverage LAMBDA to benchmark current end-to-end learning methods and a modular neuro-symbolic approaches that combines foundation models with task and motion planning. We find that end-to-end methods-even when pretrained-yield lower success rates, while neuro-symbolic methods perform significantly better and require less data.

arxiv情報

著者 Ahmed Jaafar,Shreyas Sundara Raman,Yichen Wei,Sudarshan Harithas,Sofia Juliani,Anneke Wernerfelt,Benedict Quartey,Ifrah Idrees,Jason Xinyu Liu,Stefanie Tellex
発行日 2025-03-04 17:33:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics はコメントを受け付けていません

Q-Filters: Leveraging QK Geometry for Efficient KV Cache Compression

要約

オートレーフレンシャリング言語モデルは、キー価値(kV)キャッシュに依存しており、これにより、世代中に過去の隠れた状態が再構成されないようにし、より速くなります。
モデルのサイズとコンテキストの長さが成長するにつれて、KVキャッシュは重要なメモリボトルネックになり、生成中のサイズを制限する圧縮方法が必要です。
この論文では、注意マップを計算せずに注意スコアを効率的に近似できるようにするクエリ(q)およびキー(k)ベクトルの驚くべき特性を発見します。
単一のコンテキストに依存しない投影に基づいて、より重要ではないキー価値ペアを除去するトレーニングフリーのKVキャッシュ圧縮法であるQ-Filtersを提案します。
多くの代替案とは異なり、Q-filtersは、注意力への直接アクセスを必要としないため、Flashattentionと互換性があります。
長いコンテキスト設定での実験結果は、Q-filterが検索タスクでのSNAPKVなどの注意ベースの圧縮方法と競合する一方で、生成セットアップのストリーミング-LLMなどの効率的な圧縮スキームを常に上回ることを示しています。
特に、Q-Filtersは、X32圧縮レベルのヘイスタックの針タスクで99%の精度を達成し、ストリーミング-LLMと比較してテキスト生成で継続性の低下を最大65%減らします。

要約(オリジナル)

Autoregressive language models rely on a Key-Value (KV) Cache, which avoids re-computing past hidden states during generation, making it faster. As model sizes and context lengths grow, the KV Cache becomes a significant memory bottleneck, which calls for compression methods that limit its size during generation. In this paper, we discover surprising properties of Query (Q) and Key (K) vectors that allow us to efficiently approximate attention scores without computing the attention maps. We propose Q-Filters, a training-free KV Cache compression method that filters out less crucial Key-Value pairs based on a single context-agnostic projection. Contrarily to many alternatives, Q-Filters is compatible with FlashAttention, as it does not require direct access to attention weights. Experimental results in long-context settings demonstrate that Q-Filters is competitive with attention-based compression methods such as SnapKV in retrieval tasks while consistently outperforming efficient compression schemes such as Streaming-LLM in generation setups. Notably, Q-Filters achieves a 99% accuracy in the needle-in-a-haystack task with a x32 compression level while reducing the generation perplexity drop by up to 65% in text generation compared to Streaming-LLM.

arxiv情報

著者 Nathan Godey,Alessio Devoto,Yu Zhao,Simone Scardapane,Pasquale Minervini,Éric de la Clergerie,Benoît Sagot
発行日 2025-03-04 17:37:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Q-Filters: Leveraging QK Geometry for Efficient KV Cache Compression はコメントを受け付けていません

A Multimodal Symphony: Integrating Taste and Sound through Generative AI

要約

ここ数十年で、神経科学的および心理的研究は、味と聴覚認識の間の直接的な関係を追跡してきました。
この記事では、味覚情報を音楽に変換することができるマルチモーダル生成モデルについて、この基礎的な研究に基づいています。
この分野の最先端の最先端の簡単なレビューを提供し、重要な調査結果と方法論を強調しています。
生成音楽モデル(MusicGen)の微調整されたバージョンを使用して、各音楽に提供される詳細な味の説明に基づいて音楽を生成する実験を提示します。
結果は有望です。参加者の($ n = 111 $)評価によれば、微調整されたモデルは、非ファインチューニングモデルと比較して入力味の説明をより首尾一貫して反映する音楽を生成します。
この研究は、AI、音、味の間の具体化された相互作用を理解し、開発するための重要なステップを表しており、生成AIの分野で新しい可能性を開きます。
データセット、コード、および事前トレーニングを受けたモデルをhttps://osf.io/xs5jy/にリリースします。

要約(オリジナル)

In recent decades, neuroscientific and psychological research has traced direct relationships between taste and auditory perceptions. This article explores multimodal generative models capable of converting taste information into music, building on this foundational research. We provide a brief review of the state of the art in this field, highlighting key findings and methodologies. We present an experiment in which a fine-tuned version of a generative music model (MusicGEN) is used to generate music based on detailed taste descriptions provided for each musical piece. The results are promising: according the participants’ ($n=111$) evaluation, the fine-tuned model produces music that more coherently reflects the input taste descriptions compared to the non-fine-tuned model. This study represents a significant step towards understanding and developing embodied interactions between AI, sound, and taste, opening new possibilities in the field of generative AI. We release our dataset, code and pre-trained model at: https://osf.io/xs5jy/.

arxiv情報

著者 Matteo Spanio,Massimiliano Zampini,Antonio Rodà,Franco Pierucci
発行日 2025-03-04 17:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, I.2.6 | A Multimodal Symphony: Integrating Taste and Sound through Generative AI はコメントを受け付けていません

Decentralized Adversarial Training over Graphs

要約

機械学習モデルの敵対的な攻撃に対する脆弱性は、近年かなりの注目を集めています。
ほとんどの既存の研究は、スタンドアロンのシングルエージェント学習者の行動に焦点を当てています。
それに比べて、この作業は、個々のエージェントが空間全体のさまざまな強度レベルの摂動にさらされるグラフ上の敵対的なトレーニングを研究しています。
リンクされたエージェントによる相互作用、およびグラフ上で可能な攻撃モデルの不均一性は、グループの配位能力を考慮して堅牢性を高めるのに役立つと予想されます。
分散学習のMin-MAX定式化を使用して、マルチエージェントシステム向けの分散型敵対的なトレーニングフレームワークを開発します。
具体的には、2つの一般的な分散学習戦略(拡散とコンセンサス)に依存することにより、2つの分散型敵対的訓練アルゴリズムを考案します。
強く凸型、凸型、および非凸環境のための提案されたフレームワークの収束特性を分析し、敵対的な攻撃に対する強化された堅牢性を示します。

要約(オリジナル)

The vulnerability of machine learning models to adversarial attacks has been attracting considerable attention in recent years. Most existing studies focus on the behavior of stand-alone single-agent learners. In comparison, this work studies adversarial training over graphs, where individual agents are subjected to perturbations of varied strength levels across space. It is expected that interactions by linked agents, and the heterogeneity of the attack models that are possible over the graph, can help enhance robustness in view of the coordination power of the group. Using a min-max formulation of distributed learning, we develop a decentralized adversarial training framework for multi-agent systems. Specifically, we devise two decentralized adversarial training algorithms by relying on two popular decentralized learning strategies–diffusion and consensus. We analyze the convergence properties of the proposed framework for strongly-convex, convex, and non-convex environments, and illustrate the enhanced robustness to adversarial attacks.

arxiv情報

著者 Ying Cao,Elsa Rizk,Stefan Vlaski,Ali H. Sayed
発行日 2025-03-04 17:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Decentralized Adversarial Training over Graphs はコメントを受け付けていません

AlignDistil: Token-Level Language Model Alignment as Adaptive Policy Distillation

要約

現代の大規模な言語モデル(LLMS)では、LLMアライメントは非常に重要であり、通常、人間のフィードバック(RLHF)からの強化学習や直接優先最適化(DPO)などの方法を通じて達成されます。
ただし、LLMアライメントのほとんどの既存の方法では、応答のすべてのトークンは、まばらな応答レベルの報酬または優先注釈を使用して最適化されています。
トークンレベルの報酬の無知は、高品質のトークンを誤って罰したり、低品質のトークンを促進したりして、最適ではないパフォーマンスと収束速度が遅くなる場合があります。
この問題に対処するために、トークンレベルの報酬最適化のためのRLHF等価蒸留方法であるAligndistilを提案します。
具体的には、DPOによって学んだ報酬をRLHFの目的に導入し、理論的には、この目的とトークンレベルの蒸留プロセスとの等価性を証明します。ここで、教師の分布はDPOモデルと参照モデルのロジットを直線的に組み合わせます。
これに基づいて、通常のDPOモデルと逆DPOモデルで対照的なDPO報酬を構築することにより、DPOモデルからの報酬と純粋な報酬モデルの間の精度ギャップをさらに埋めます。
さらに、さまざまなトークンでの過剰および過度の最適化を回避するために、トークン適応ロジット外挿メカニズムを設計して、各トークンに適切な教師分布を構築します。
実験結果は、既存の方法に対するAligndistilの優位性を示し、トークンレベルの分布報酬の最適化により、高速収束を紹介します。

要約(オリジナル)

In modern large language models (LLMs), LLM alignment is of crucial importance and is typically achieved through methods such as reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO). However, in most existing methods for LLM alignment, all tokens in the response are optimized using a sparse, response-level reward or preference annotation. The ignorance of token-level rewards may erroneously punish high-quality tokens or encourage low-quality tokens, resulting in suboptimal performance and slow convergence speed. To address this issue, we propose AlignDistil, an RLHF-equivalent distillation method for token-level reward optimization. Specifically, we introduce the reward learned by DPO into the RLHF objective and theoretically prove the equivalence between this objective and a token-level distillation process, where the teacher distribution linearly combines the logits from the DPO model and a reference model. On this basis, we further bridge the accuracy gap between the reward from the DPO model and the pure reward model, by building a contrastive DPO reward with a normal and a reverse DPO model. Moreover, to avoid under- and over-optimization on different tokens, we design a token adaptive logit extrapolation mechanism to construct an appropriate teacher distribution for each token. Experimental results demonstrate the superiority of our AlignDistil over existing methods and showcase fast convergence due to its token-level distributional reward optimization.

arxiv情報

著者 Songming Zhang,Xue Zhang,Tong Zhang,Bojie Hu,Yufeng Chen,Jinan Xu
発行日 2025-03-04 17:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | AlignDistil: Token-Level Language Model Alignment as Adaptive Policy Distillation はコメントを受け付けていません