Neural Quantum Digital Twins for Optimizing Quantum Annealing

要約

Quantum Annealersは、特定の組み合わせ最適化の問題に対処する可能性を示していますが、パフォーマンスはスケーラビリティとエラー率によって制限されることがよくあります。
この作業では、量子アニーリングに関連する量子多体システムのエネルギー環境を再構築するニューラル量子デジタルツイン(NQDT)フレームワークを提案します。
デジタルツインモデルグラウンドと励起状態の両方のダイナミクスをモデル化し、断熱進化プロセスの詳細なシミュレーションを可能にします。
既知の分析ソリューションを使用したシステムにNQDTをベンチマークし、量子の臨界性や相転移を含む重要な量子現象を正確にキャプチャすることを実証します。
このフレームワークを活用すると、励起関連のエラーを最小限に抑える最適なアニーリングスケジュールを特定できます。
これらの調査結果は、量子アニーラーのパフォーマンスを改善するための診断および最適化ツールとしてのニューラルネットワークベースのデジタルツインの有用性を強調しています。

要約(オリジナル)

Quantum annealers have shown potential in addressing certain combinatorial optimization problems, though their performance is often limited by scalability and errors rates. In this work, we propose a Neural Quantum Digital Twin (NQDT) framework that reconstructs the energy landscape of quantum many-body systems relevant to quantum annealing. The digital twin models both ground and excited state dynamics, enabling detailed simulation of the adiabatic evolution process. We benchmark NQDT on systems with known analytical solutions and demonstrate that it accurately captures key quantum phenomena, including quantum criticality and phase transitions. Leveraging this framework, one can identify optimal annealing schedules that minimize excitation-related errors. These findings highlight the utility of neural network-based digital twins as a diagnostic and optimization tool for improving the performance of quantum annealers.

arxiv情報

著者 Jianlong Lu,Hanqiu Peng,Ying Chen
発行日 2025-05-21 15:38:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, quant-ph | Neural Quantum Digital Twins for Optimizing Quantum Annealing はコメントを受け付けていません

GODBench: A Benchmark for Multimodal Large Language Models in Video Comment Art

要約

ビデオコメントアートは、ユーモア、風刺、または感情的な共鳴を伝える創造的なコンテンツを提供することにより、ユーザーのエンゲージメントを強化し、文化的および文脈上の微妙さを微妙かつ包括的に把握する必要があります。
マルチモーダルの大手言語モデル(MLLM)とチェーンオブシュート(COT)は、STEMタスク(数学やコーディングなど)の強力な推論能力を実証していますが、共鳴冗談や洞察力に富んだ風刺などの創造的な表現を生成するのに苦労しています。
さらに、既存のベンチマークは、限られたモダリティと不十分なカテゴリによって制約されており、ビデオベースのコメントアート作成における包括的な創造性の調査を妨げています。
これらの制限に対処するために、ビデオとテキストのモダリティを統合してMLLMSのコメントアートを作成する能力を体系的に評価する新しいベンチマークであるGodbenchを紹介します。
さらに、物理学における波の伝播パターンに触発されて、MLLMの創造性を高めるために設計されたマルチステップ推論フレームワークである思考の波紋(ROT)を提案します。
広範な実験により、既存のMLLMとCOTの方法は、創造的なビデオコメントの理解と生成において依然として大きな課題に直面していることが明らかになりました。
対照的に、ROTは創造的な作曲を改善するための効果的なアプローチを提供し、MLLMベースの創造性の有意義な進歩を促進する可能性を強調しています。
Godbenchはhttps://github.com/stan-lei/godbench-acl2025で公開されています。

要約(オリジナル)

Video Comment Art enhances user engagement by providing creative content that conveys humor, satire, or emotional resonance, requiring a nuanced and comprehensive grasp of cultural and contextual subtleties. Although Multimodal Large Language Models (MLLMs) and Chain-of-Thought (CoT) have demonstrated strong reasoning abilities in STEM tasks (e.g. mathematics and coding), they still struggle to generate creative expressions such as resonant jokes and insightful satire. Moreover, existing benchmarks are constrained by their limited modalities and insufficient categories, hindering the exploration of comprehensive creativity in video-based Comment Art creation. To address these limitations, we introduce GODBench, a novel benchmark that integrates video and text modalities to systematically evaluate MLLMs’ abilities to compose Comment Art. Furthermore, inspired by the propagation patterns of waves in physics, we propose Ripple of Thought (RoT), a multi-step reasoning framework designed to enhance the creativity of MLLMs. Extensive experiments reveal that existing MLLMs and CoT methods still face significant challenges in understanding and generating creative video comments. In contrast, RoT provides an effective approach to improve creative composing, highlighting its potential to drive meaningful advancements in MLLM-based creativity. GODBench is publicly available at https://github.com/stan-lei/GODBench-ACL2025.

arxiv情報

著者 Yiming Lei,Chenkai Zhang,Zeming Liu,Haitao Leng,Shaoguo Liu,Tingting Gao,Qingjie Liu,Yunhong Wang
発行日 2025-05-21 15:41:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | GODBench: A Benchmark for Multimodal Large Language Models in Video Comment Art はコメントを受け付けていません

Learning Heuristics for Transit Network Design and Improvement with Deep Reinforcement Learning

要約

公共交通ルートのネットワークを計画することは、挑戦的な最適化の問題です。
メタヒューリスティックアルゴリズムは、ネットワーク内のルートをランダムに変更するヒューリスティックを適用することにより、可能なトランジットネットワークの空間を検索します。
これらのヒューリスティックの設計は、結果の質に大きな影響を与えます。
この論文では、深い補強学習を使用してグラフニューラルネットをトレーニングして、進化アルゴリズムにヒューリスティックを提供します。
これらのニューラルヒューリスティックは、70個以上のノードを持つベンチマーク合成都市に関するアルゴリズムの結果を改善し、挑戦的なマンフォードベンチマークで新しい最先端の結果を達成します。
また、カナダのラヴァル市の実際の輸送ネットワークのシミュレーションを2つの主要な指標で52%と25%改善し、市の既存のトランジットネットワークよりも最大19%のコスト削減を提供します。

要約(オリジナル)

Planning a network of public transit routes is a challenging optimization problem. Metaheuristic algorithms search through the space of possible transit networks by applying heuristics that randomly alter routes in a network. The design of these heuristics has a major impact on the quality of the result. In this paper, we use deep reinforcement learning to train a graph neural net to provide heuristics for an evolutionary algorithm. These neural heuristics improve the algorithm’s results on benchmark synthetic cities with 70 nodes or more, and achieve new state-of-the-art results on the challenging Mumford benchmark. They also improve upon a simulation of the real transit network in the city of Laval, Canada, by 52% and 25% on two key metrics, and offer cost savings of up to 19% over the city’s existing transit network.

arxiv情報

著者 Andrew Holliday,Ahmed El-Geneidy,Gregory Dudek
発行日 2025-05-21 15:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | Learning Heuristics for Transit Network Design and Improvement with Deep Reinforcement Learning はコメントを受け付けていません

Intermediate Languages Matter: Formal Choice Drives Neurosymbolic LLM Reasoning

要約

大規模な言語モデル(LLM)は、幅広いタスクで驚くべき結果を達成します。
しかし、彼らの正式な推論能力はまだ遅れています。
有望なアプローチは、神経症のLLM推論です。
LLMを自然な言語から正式な言語、シンボリックソルバーから翻訳者として使用して、正しい結果を導き出すことで機能します。
それでも、神経反応質LLMの推論の成功への寄与要因が何であるかは不明のままです。
この論文は、1つの重要な要素が正式な言語の選択であることを示しています。
6 LLMを超える3つのデータセットで4つの正式な言語を比較することにより、正式な言語の選択が構文とセマンティックの推論機能の両方に影響することを示します。
それにより、中間言語の課題を紹介します。これは、神経症の推論に適した正式な言語を選ぶという課題です。
さらに、アブレーション研究で異なるコンテキスト学習例を使用する効果を比較します。
コメントやマークダウン構文を使用することの明らかな効果はありませんが、平均してコンテキスト認識のエンコーディングがLLMが推論するのに役立つと結論付けます。

要約(オリジナル)

Large language models (LLMs) achieve astonishing results on a wide range of tasks. However, their formal reasoning ability still lags behind. A promising approach is Neurosymbolic LLM reasoning. It works by using LLMs as translators from natural to formal languages and symbolic solvers for deriving correct results. Still, it remains unclear what the contributing factors to the success of Neurosymbolic LLM reasoning are. This paper shows that one important factor is the choice of the formal language. By comparing 4 formal languages on 3 datasets over 6 LLMs, we show that the choice of formal language affects both the syntactic and the semantic reasoning capability. Thereby, we introduce the intermediate language challenge, which is the challenge of picking a suitable formal language for neurosymbolic reasoning. Further, we compare the effects of using different in-context-learning examples in an ablation study. We conclude that on average, context-aware encodings help LLMs to reason, while there is no apparent effect of using comments or markdown syntax.

arxiv情報

著者 Alexander Beiser,David Penz,Nysret Musliu
発行日 2025-05-21 15:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Intermediate Languages Matter: Formal Choice Drives Neurosymbolic LLM Reasoning はコメントを受け付けていません

UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models

要約

大規模な言語モデルでは、知識の競合や時代遅れの情報(たとえば、間違っている、プライベート、または違法な内容などの課題に対処するための反復的な更新が必要です。
Machine Inlarningは、訓練されたモデルからターゲットを絞った知識除去のための体系的な方法論を提供し、機密情報の影響を排除できるようにします。
ただし、主流の微調整ベースの未学習方法は、学習の有効性とモデル能力のバランスを取ることができず、多くの場合、広範な知識除去の下で壊滅的なモデルの崩壊をもたらすことがよくあります。
一方、モデルの本質的なメカニズムを変更せずにコンテキストプロンプトのみに依存しているコンテキスト内学習は、限られた一般化可能性と真の学習を達成するための闘争に苦しんでいます。
この作業では、学習可能なパラメトリック接尾辞(トークンを学習していないトークン)を使用して、ターゲットを絞った忘却行動に向けて言語モデルを導く小説であるUnieraseを紹介します。
Unieraseは、2つの重要なフェーズで動作します。(i)トークン最適化を介してモデルの自己回帰確率分布に希望する希望の出力を結合する最適化段階、続いて、(ii)学習されたトークンをアクティブにして、特定の忘却の目的を確率的に誘導する軽量モデル編集フェーズが続きます。
Unieraseは、学習を誘導するためのトークン学習のための新しい研究の方向として機能し、バッチ、シーケンシャル、および架空の実世界の知識設定の下での最新の(SOTA)パフォーマンスを達成します。
驚くべきことに、豆腐のベンチマーク、Unieraseの点では、LLMパラメーターの約3.66%のみを変更するため、モデル能力のために以前の忘却Sotaベースラインを約4.01倍も上回ります。
同様に、より多くの能力を維持しているUnieraseは、現在の不格なドメインでデュアルトップ層のパフォーマンスを示すために、以前の維持SOTAを35.96%上回っています。

要約(オリジナル)

Large language models require iterative updates to address challenges such as knowledge conflicts and outdated information (e.g., incorrect, private, or illegal contents). Machine unlearning provides a systematic methodology for targeted knowledge removal from trained models, enabling elimination of sensitive information influences. However, mainstream fine-tuning-based unlearning methods often fail to balance unlearning efficacy and model ability, frequently resulting in catastrophic model collapse under extensive knowledge removal. Meanwhile, in-context unlearning, which relies solely on contextual prompting without modifying the model’s intrinsic mechanisms, suffers from limited generalizability and struggles to achieve true unlearning. In this work, we introduce UniErase, a novel unlearning paradigm that employs learnable parametric suffix (unlearning token) to steer language models toward targeted forgetting behaviors. UniErase operates through two key phases: (I) an optimization stage that binds desired unlearning outputs to the model’s autoregressive probability distribution via token optimization, followed by (II) a lightweight model editing phase that activates the learned token to probabilistically induce specified forgetting objective. Serving as a new research direction for token learning to induce unlearning target, UniErase achieves state-of-the-art (SOTA) performance across batch, sequential, and precise unlearning under fictitious and real-world knowledge settings. Remarkably, in terms of TOFU benchmark, UniErase, modifying only around 3.66% of the LLM parameters, outperforms previous forgetting SOTA baseline by around 4.01 times for model ability with even better unlearning efficacy. Similarly, UniErase, maintaining more ability, also surpasses previous retaining SOTA by 35.96% for unlearning efficacy, showing dual top-tier performances in current unlearing domain.

arxiv情報

著者 Miao Yu,Liang Lin,Guibin Zhang,Xinfeng Li,Junfeng Fang,Ningyu Zhang,Kun Wang,Yang Wang
発行日 2025-05-21 15:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models はコメントを受け付けていません

Towards Machine-Generated Code for the Resolution of User Intentions

要約

人工知能(AI)の成長能力、特に大規模な言語モデル(LLM)は、ユーザーとそのデバイス間の相互作用メカニズムの再評価を促します。
現在、ユーザーは一連の高レベルアプリケーションを使用して、望ましい結果を達成する必要があります。
ただし、AIの出現は、その能力がモデル生成コードの展開を通じてユーザーが提供する意図解決の新しい見通しを生み出したため、この点でシフトを示す可能性があります。
この開発は、ハイブリッドワークフローの領域における大幅な進行を表しています。ハイブリッドワークフローは、人間と人工知能が協力してユーザーの意図に対処し、前者はこれらの意図を定義する責任を負い、後者はそれらに対処するためのソリューションを実装する責任があります。
この論文では、具体的なユーザーの意図でLLMを促し、ガイレスオペレーティングシステムの単純化されたアプリケーションプログラミングインターフェイスを促すことに起因するコード生成を通じてワークフローを生成および実行する可能性を調査します。
さまざまなユーザー意図、結果のコード、およびその実行の詳細な分析と比較を提供します。
調査結果は、当社のアプローチの一般的な実現可能性と、採用されたLLMであるGPT-4O-MINIが、提供されたユーザーの意図に従ってコード指向ワークフローの生成において顕著な習熟度を示していることを示しています。

要約(オリジナル)

The growing capabilities of Artificial Intelligence (AI), particularly Large Language Models (LLMs), prompt a reassessment of the interaction mechanisms between users and their devices. Currently, users are required to use a set of high-level applications to achieve their desired results. However, the advent of AI may signal a shift in this regard, as its capabilities have generated novel prospects for user-provided intent resolution through the deployment of model-generated code. This development represents a significant progression in the realm of hybrid workflows, where human and artificial intelligence collaborate to address user intentions, with the former responsible for defining these intentions and the latter for implementing the solutions to address them. In this paper, we investigate the feasibility of generating and executing workflows through code generation that results from prompting an LLM with a concrete user intention, and a simplified application programming interface for a GUI-less operating system. We provide an in-depth analysis and comparison of various user intentions, the resulting code, and its execution. The findings demonstrate the general feasibility of our approach and that the employed LLM, GPT-4o-mini, exhibits remarkable proficiency in the generation of code-oriented workflows in accordance with provided user intentions.

arxiv情報

著者 Justus Flerlage,Ilja Behnke,Odej Kao
発行日 2025-05-21 15:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Towards Machine-Generated Code for the Resolution of User Intentions はコメントを受け付けていません

A Federated Splitting Framework for LLMs: Security, Efficiency, and Adaptability

要約

プライベートデータは通常、パブリックデータよりも高品質であり、LLMを改善する大きな可能性を提供します。
ただし、データサイロ全体に散在する分布とLLMSの高い計算需要により、フェデレーション環境での展開が制限されます。
これに対処するために、トランスベースの分割学習モデルが出現し、ほとんどのモデルパラメーターをサーバーにオフロードしながら、クライアントに埋め込み層と出力層のみを保持してプライバシーを確​​保します。
ただし、セキュリティ、効率性、適応性において依然として重要な課題に直面しています。1)埋め込み勾配は攻撃に対して脆弱であり、プライベートデータのリバースエンジニアリングにつながります。
2)LLMSの自己回帰的性質は、フェデレートスプリットラーニングが連続的に訓練および推測のみを行い、高い通信オーバーヘッドを引き起こすことを意味します。
3)固定されたパーティションポイントは、ダウンストリームタスクへの適応性を欠いています。
この論文では、LLAMA2に基づいた安全で効率的で適応的なフェデレートスプリットフレームワークであるFl-Llamaを紹介します。
まず、ローカルクライアントにいくつかの入出力ブロックと出力ブロックを配置し、ガウスノイズをフォワードパスの隠された状態に注入し、安全なエンドツーエンドの伝播を可能にします。
第二に、クライアントバッチとサーバー監督の戦略を採用して、並列トレーニングを実現し、注意マスク圧縮とKVキャッシュメカニズムを使用して推論を加速し、通信コストを効果的に削減します。
第三に、ユーザーは、特定のタスク要件とハードウェアの制限に基づいて、入力/出力ブロックのパーティションポイントを動的に調整できます。
NLU、要約、および会話のQAタスクに関する実験では、FL-LALAが集中化されたLLAMA2に匹敵するパフォーマンスを維持し、最大2倍の列車のスピードアップと8倍の推論スピードアップを達成することが示されています。
プライバシー攻撃とさまざまなパーティションポイントのさらなる分析は、セキュリティと適応性におけるFL-llamaの有効性も示しています。

要約(オリジナル)

Private data is typically larger and of higher quality than public data, offering great potential to improve LLM. However, its scattered distribution across data silos and the high computational demands of LLMs limit their deployment in federated environments. To address this, the transformer-based split learning model has emerged, offloading most model parameters to the server while retaining only the embedding and output layers on clients to ensure privacy. However, it still faces significant challenges in security, efficiency, and adaptability: 1) embedding gradients are vulnerable to attacks, leading to reverse engineering of private data; 2) the autoregressive nature of LLMs means that federated split learning can only train and infer sequentially, causing high communication overhead; 3) fixed partition points lack adaptability to downstream tasks. In this paper, we introduce FL-LLaMA, a secure, efficient, and adaptive federated split framework based on LLaMA2. First, we place some input and output blocks on the local client and inject Gaussian noise into forward-pass hidden states, enabling secure end-to-end propagation. Second, we employ client-batch and server-hierarchical strategies to achieve parallel training, along with attention-mask compression and KV cache mechanisms to accelerate inference, reducing communication costs effectively. Third, we allow users to dynamically adjust the partition points for input/output blocks based on specific task requirements and hardware limitations. Experiments on NLU, summarization and conversational QA tasks show that FL-LLaMA maintains performance comparable to centralized LLaMA2, and achieves up to 2x train speedups and 8x inference speedups. Further analysis of privacy attacks and different partition points also demonstrates the effectiveness of FL-LLaMA in security and adaptability.

arxiv情報

著者 Zishuai Zhang,Hainan Zhang,Jiaying Zheng,Ziwei Wang,Yongxin Tong,Jin Dong,Zhiming Zheng
発行日 2025-05-21 15:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DC | A Federated Splitting Framework for LLMs: Security, Efficiency, and Adaptability はコメントを受け付けていません

Spontaneous Giving and Calculated Greed in Language Models

要約

大規模な言語モデルは、考え方の促しや反射などの推論技術を通じて強い問題解決能力を示しています。
ただし、これらの推論能力が社会的知性の形態にまで及ぶかどうかは不明のままです。協同組合の文脈で効果的な決定を下します。
私たちは、社会的ジレンマをシミュレートする経済的ゲームを使用してこの質問を調べます。
まず、公共財のゲームでGPT-4oにチェーンとリフレクションのプロンプトを適用します。
次に、6つの協力と罰ゲームにわたって複数の既製のモデルを評価し、明示的な推論メカニズムの有無にかかわらず比較します。
推論モデルは一貫して協力と規範の執行を減らし、個々の合理性を支持することがわかります。
繰り返しの相互作用では、より多くの推論エージェントを持つグループは、より低い集合的利益を示します。
これらの行動は、「自発的な与え、計算された貪欲」の人間のパターンを反映しています。
私たちの調査結果は、社会的知性を推論とともに組み込んだLLMアーキテクチャの必要性を強調しており、集団行動の課題に対処するのに役立ちます。

要約(オリジナル)

Large language models demonstrate strong problem-solving abilities through reasoning techniques such as chain-of-thought prompting and reflection. However, it remains unclear whether these reasoning capabilities extend to a form of social intelligence: making effective decisions in cooperative contexts. We examine this question using economic games that simulate social dilemmas. First, we apply chain-of-thought and reflection prompting to GPT-4o in a Public Goods Game. We then evaluate multiple off-the-shelf models across six cooperation and punishment games, comparing those with and without explicit reasoning mechanisms. We find that reasoning models consistently reduce cooperation and norm enforcement, favoring individual rationality. In repeated interactions, groups with more reasoning agents exhibit lower collective gains. These behaviors mirror human patterns of ‘spontaneous giving and calculated greed.’ Our findings underscore the need for LLM architectures that incorporate social intelligence alongside reasoning, to help address–rather than reinforce–the challenges of collective action.

arxiv情報

著者 Yuxuan Li,Hirokazu Shirado
発行日 2025-05-21 16:04:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Spontaneous Giving and Calculated Greed in Language Models はコメントを受け付けていません

Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives

要約

補強学習(RL)の最近の進歩により、エージェントの動作を形成する報酬機能の設計に焦点を当てています。
手動で報酬機能を設計することは退屈でエラーが発生しやすいです。
原則的な代替案は、自動的に報酬に変換できる正式な言語で動作を指定することです。
オメガの正規言語は、正式な検証と統合における確立された役割を考えると、この目的のための自然な選択です。
ただし、オメガ正規仕様を使用した既存の方法は、通常、定期的なリセットを使用して、エピソード設定の割引報酬RLに依存しています。
このセットアップは、無限の動作トレースよりもプロパティを記述するオメガ正規仕様のセマンティクスと誤って調整されます。
そのような場合、平均報酬基準と継続的な設定 – エージェントが環境と単一の中断のない寿命を越えて相互作用する – はより適切です。
継続的なタスク、継続的なタスクの課題に対処するために、絶対的なlivense仕様の仕様に焦点を当てます。これは、有限の動作のプレフィックスでは違反できないオメガ正規言語のサブクラスであり、継続的な設定に適しています。
絶対的なlivension仕様を平均報酬目標に変換する最初のモデルフリーRLフレームワークを提示します。
私たちのアプローチにより、エピソードリセットなしでMDPを通信することを学習できます。
また、特定のオメガ正規仕様の満足度確率を最大化するポリシーの中で外部の平均報酬目標を最大化することを目的とした、辞書編集の多目的最適化の報酬構造を紹介します。
私たちの方法は、未知のMDPの通信の収束を保証し、環境の完全な知識を必要としないオンザフライ削減をサポートし、モデルのないRLを可能にします。
経験的な結果は、ベンチマーク全体で割引ベースの方法を上回ることを継続する際の平均的な報酬アプローチを示しています。

要約(オリジナル)

Recent advances in reinforcement learning (RL) have renewed focus on the design of reward functions that shape agent behavior. Manually designing reward functions is tedious and error-prone. A principled alternative is to specify behaviors in a formal language that can be automatically translated into rewards. Omega-regular languages are a natural choice for this purpose, given their established role in formal verification and synthesis. However, existing methods using omega-regular specifications typically rely on discounted reward RL in episodic settings, with periodic resets. This setup misaligns with the semantics of omega-regular specifications, which describe properties over infinite behavior traces. In such cases, the average reward criterion and the continuing setting — where the agent interacts with the environment over a single, uninterrupted lifetime — are more appropriate. To address the challenges of infinite-horizon, continuing tasks, we focus on absolute liveness specifications — a subclass of omega-regular languages that cannot be violated by any finite behavior prefix, making them well-suited to the continuing setting. We present the first model-free RL framework that translates absolute liveness specifications to average-reward objectives. Our approach enables learning in communicating MDPs without episodic resetting. We also introduce a reward structure for lexicographic multi-objective optimization, aiming to maximize an external average-reward objective among the policies that also maximize the satisfaction probability of a given omega-regular specification. Our method guarantees convergence in unknown communicating MDPs and supports on-the-fly reductions that do not require full knowledge of the environment, thus enabling model-free RL. Empirical results show our average-reward approach in continuing setting outperforms discount-based methods across benchmarks.

arxiv情報

著者 Milad Kazemi,Mateo Perez,Fabio Somenzi,Sadegh Soudjani,Ashutosh Trivedi,Alvaro Velasquez
発行日 2025-05-21 16:06:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives はコメントを受け付けていません

A Unified Theoretical Analysis of Private and Robust Offline Alignment: from RLHF to DPO

要約

この論文では、プライバシーと敵対的な腐敗に対する堅牢性との相互作用に焦点を当てて、オフラインアライメントにおけるノイズの多いラベルの効果を理論的に調査します。
具体的には、線形モデリングの仮定の下で、人間のフィードバック(RLHF)からの強化学習と直接優先最適化(DPO)の両方をカバーする統合分析を提示します。
ラベルは、プライバシー保護の前に破損しています。
分析では、ロジスティック回帰のパラメーター推定に対する線形モデリング仮定の下で、オフラインアライメント問題を減らす削減フレームワークを活用します。
このフレームワークにより、LTCとCTLの間に興味深い分離結果を確立することができ、LTCが線形モデルであっても、オフラインアライメントでCTLよりも大きな課題を提示することを示しています。
重要な副産物として、私たちの調査結果は、プライバシーのみまたは汚職のみのシナリオの下でのオフラインアライメントで最先端の理論的結果を前進させます。

要約(オリジナル)

In this paper, we theoretically investigate the effects of noisy labels in offline alignment, with a focus on the interplay between privacy and robustness against adversarial corruption. Specifically, under linear modeling assumptions, we present a unified analysis covering both reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO) under different privacy-corruption scenarios, such as Local differential privacy-then-Corruption (LTC), where human preference labels are privatized before being corrupted by an adversary, and Corruption-then-Local differential privacy (CTL), where labels are corrupted before privacy protection. Our analysis leverages a reduction framework that reduces the offline alignment problem under linear modeling assumptions to parameter estimation in logistic regression. This framework allows us to establish an interesting separation result between LTC and CTL, demonstrating that LTC presents a greater challenge than CTL in offline alignment, even under linear models. As important by-products, our findings also advance the state-of-the-art theoretical results in offline alignment under privacy-only or corruption-only scenarios.

arxiv情報

著者 Xingyu Zhou,Yulian Wu,Francesco Orabona
発行日 2025-05-21 16:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Unified Theoretical Analysis of Private and Robust Offline Alignment: from RLHF to DPO はコメントを受け付けていません