Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models

要約

大規模な言語モデル(LLM)は、人工的な一般情報の基礎的な調査ですが、指導の調整と好みの学習による人間の価値との整合性は、表面的なコンプライアンスのみを達成します。
ここでは、事前に埋め込まれた有害な知識がLLMSのパラメトリックメモリでは消えない「暗いパターン」として持続し、アライメントセーフガードを回避し、分布シフトでの敵対的誘導の下で再浮上することを示します。
この研究では、現在のアライメント方法が知識マニホールドにローカルな「安全領域」のみを生成することを証明することにより、まず、整合したLLMの本質的な倫理的脆弱性を理論的に分析します。
対照的に、事前に守られた知識は、高等の敵対的軌跡を介して有害な概念に世界的に関連したままです。
この理論的洞察に基づいて、分布シフトの下でセマンティックコヒーレンス誘導を採用することにより、調査結果を経験的に検証します。これは、最適化された敵対的プロンプトを介して整列制約を体系的にバイパスする方法です。
この理論的および経験的アプローチは、Deepseek-R1やLlama-3を含む23の最先端のAligned LLMのうち19で100%の攻撃成功率を達成し、普遍的な脆弱性を明らかにします。

要約(オリジナル)

Large language models (LLMs) are foundational explorations to artificial general intelligence, yet their alignment with human values via instruction tuning and preference learning achieves only superficial compliance. Here, we demonstrate that harmful knowledge embedded during pretraining persists as indelible ‘dark patterns’ in LLMs’ parametric memory, evading alignment safeguards and resurfacing under adversarial inducement at distributional shifts. In this study, we first theoretically analyze the intrinsic ethical vulnerability of aligned LLMs by proving that current alignment methods yield only local ‘safety regions’ in the knowledge manifold. In contrast, pretrained knowledge remains globally connected to harmful concepts via high-likelihood adversarial trajectories. Building on this theoretical insight, we empirically validate our findings by employing semantic coherence inducement under distributional shifts–a method that systematically bypasses alignment constraints through optimized adversarial prompts. This combined theoretical and empirical approach achieves a 100% attack success rate across 19 out of 23 state-of-the-art aligned LLMs, including DeepSeek-R1 and LLaMA-3, revealing their universal vulnerabilities.

arxiv情報

著者 Jiawei Lian,Jianhong Pan,Lefan Wang,Yi Wang,Shaohui Mei,Lap-Pui Chau
発行日 2025-04-07 13:20:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models はコメントを受け付けていません

Less is More? Revisiting the Importance of Frame Rate in Real-Time Zero-Shot Surgical Video Segmentation

要約

リアルタイムのビデオセグメンテーションは、AIアシスト手術の有望な特徴であり、手術ツールと解剖学的構造を特定することにより術中のガイダンスを提供します。
ただし、SAM2などの最先端のセグメンテーションモデルをリアルタイム設定で展開することは計算的に要求が厳しいため、フレームレートとセグメンテーションのパフォーマンスのバランスをとることが不可欠です。
この研究では、ゼロショットの外科的ビデオセグメンテーションに対するフレームレートの影響を調査し、胆嚢摘出術の複数のフレームサンプリングレートにわたるSAM2の有効性を評価します。
驚くべきことに、我々の調査結果は、従来の評価設定では、1秒あたりの単一フレームの低いフレームレートが25 fpsを上回る可能性があることを示しています。
ただし、リアルタイムストリーミングシナリオで評価されると、特に外科的グレーラーズなどの動的なオブジェクトでは、フレームレートが高い場合、優れた時間的一貫性と安定性が得られます。
最後に、そのようなデータと緊密に連携している専門家のリアルタイム外科ビデオセグメンテーションの人間の認識を調査し、回答者が一貫して高いFPSセグメンテーションマスクオーバーレイを好むことを発見し、AIアシスト手術におけるリアルタイム評価の重要性を強化します。

要約(オリジナル)

Real-time video segmentation is a promising feature for AI-assisted surgery, providing intraoperative guidance by identifying surgical tools and anatomical structures. However, deploying state-of-the-art segmentation models, such as SAM2, in real-time settings is computationally demanding, which makes it essential to balance frame rate and segmentation performance. In this study, we investigate the impact of frame rate on zero-shot surgical video segmentation, evaluating SAM2’s effectiveness across multiple frame sampling rates for cholecystectomy procedures. Surprisingly, our findings indicate that in conventional evaluation settings, frame rates as low as a single frame per second can outperform 25 FPS, as fewer frames smooth out segmentation inconsistencies. However, when assessed in a real-time streaming scenario, higher frame rates yield superior temporal coherence and stability, particularly for dynamic objects such as surgical graspers. Finally, we investigate human perception of real-time surgical video segmentation among professionals who work closely with such data and find that respondents consistently prefer high FPS segmentation mask overlays, reinforcing the importance of real-time evaluation in AI-assisted surgery.

arxiv情報

著者 Utku Ozbulak,Seyed Amir Mousavi,Francesca Tozzi,Niki Rashidian,Wouter Willaert,Wesley De Neve,Joris Vankerschaver
発行日 2025-04-07 13:22:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Less is More? Revisiting the Importance of Frame Rate in Real-Time Zero-Shot Surgical Video Segmentation はコメントを受け付けていません

Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

要約

サンプルの効率は、人間のフィードバック(RLHF)からのオンライン強化学習にとって重要です。
既存の作品は、サンプル効率の良いオンライン探査戦略を調査していますが、学習を加速するために誤解されているが関連する報酬モデルを利用する可能性は未定です。
このペーパーでは、オンラインRLHFの不完全な報酬モデルから知識を転送する方法について説明します。
まず、KL正規化されたRLHFの目的の新しい特性を特定することから始めます。
この洞察に基づいて、標準的なオンライン学習と比較して、目立つ利点を持つ新しい転送学習原則と理論的アルゴリズムを提案します。
私たちのアプローチは、品質の事前知識なしに利用可能な最良のソース報酬モデルに迅速に適応することにより、初期段階で低い後悔を達成し、$ \ tilde {o}(\ sqrt {t})$後悔のバウンド\ emphing}を達成します。
経験的に、当社の理論的調査結果に触発されて、計算効率が向上した勝利ベースの転送ポリシー選択方法を開発します。
さらに、経験的転送学習手法はモジュール式であり、DPO、IPO、XPOなどのさまざまなポリシー最適化方法と統合して、パフォーマンスをさらに向上させることができます。
要約タスクに関する実験を通じて、方法の有効性を検証します。

要約(オリジナル)

Sample efficiency is critical for online Reinforcement Learning from Human Feedback (RLHF). While existing works investigate sample-efficient online exploration strategies, the potential of utilizing misspecified yet relevant reward models to accelerate learning remains underexplored. This paper studies how to transfer knowledge from those imperfect reward models in online RLHF. We start by identifying a novel property of the KL-regularized RLHF objective: \emph{a policy’s coverability of the optimal policy is captured by its sub-optimality}. Building on this insight, we propose novel transfer learning principles and a theoretical algorithm with provable benefits compared to standard online learning. Our approach achieves low regret in the early stage by quickly adapting to the best available source reward models without prior knowledge of their quality, and over time, it attains an $\tilde{O}(\sqrt{T})$ regret bound \emph{independent} of structural complexity measures. Empirically, inspired by our theoretical findings, we develop a win-rate-based transfer policy selection method with improved computational efficiency. Moreover, our empirical transfer learning technique is modular and can be integrated with various policy optimization methods, such as DPO, IPO and XPO, to further enhance their performance. We validate the effectiveness of our method through experiments on summarization tasks.

arxiv情報

著者 Jiawei Huang,Bingcong Li,Christoph Dann,Niao He
発行日 2025-04-07 13:56:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective はコメントを受け付けていません

SpeakEasy: Enhancing Text-to-Speech Interactions for Expressive Content Creation

要約

初心者のコンテンツクリエイターは、多くの場合、ソーシャルメディアビデオの表現力豊かなスピーチを記録する重要な時間を投資します。
テキストからスピーチ(TTS)テクノロジーの最近の進歩は、さまざまな言語やアクセントで非常に現実的なスピーチを生成する可能性がありますが、多くは直感的または過度に粒状のTTSインターフェイスに苦労しています。
ユーザーがスクリプトとともに高レベルのコンテキストを指定できるようにすることにより、TTS生成を簡素化することを提案します。
私たちの魔法使いのシステムは、スピーキーズであり、ユーザーが提供するコンテキストを活用してTTS出力を通知および影響を与え、高レベルのフィードバックで反復的な改良を可能にします。
このアプローチは、2つの8サブジェクトの形成研究によって通知されました。1つはTTSでのコンテンツクリエーターの経験を調べ、もう1つは音声主体からの効果的な戦略に関する説明です。
私たちの評価は、Speakeasyを使用している参加者は、業界の主要なインターフェイスよりも大幅に多くの努力を必要とせずに、個人的な基準に一致するパフォーマンスを生成することに成功したことを示しています。

要約(オリジナル)

Novice content creators often invest significant time recording expressive speech for social media videos. While recent advancements in text-to-speech (TTS) technology can generate highly realistic speech in various languages and accents, many struggle with unintuitive or overly granular TTS interfaces. We propose simplifying TTS generation by allowing users to specify high-level context alongside their script. Our Wizard-of-Oz system, SpeakEasy, leverages user-provided context to inform and influence TTS output, enabling iterative refinement with high-level feedback. This approach was informed by two 8-subject formative studies: one examining content creators’ experiences with TTS, and the other drawing on effective strategies from voice actors. Our evaluation shows that participants using SpeakEasy were more successful in generating performances matching their personal standards, without requiring significantly more effort than leading industry interfaces.

arxiv情報

著者 Stephen Brade,Sam Anderson,Rithesh Kumar,Zeyu Jin,Anh Truong
発行日 2025-04-07 14:13:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG | SpeakEasy: Enhancing Text-to-Speech Interactions for Expressive Content Creation はコメントを受け付けていません

Algorithm Discovery With LLMs: Evolutionary Search Meets Reinforcement Learning

要約

複雑な問題を解決するための効率的なアルゴリズムを発見することは、数学とコンピューターサイエンスにおける顕著な課題であり、長年にわたって実質的な人間の専門知識を必要とします。
大規模な言語モデル(LLM)を使用した進化検索の最近の進歩は、特に数学と最適化において、さまざまなドメインにわたるアルゴリズムの発見を加速することに有望であることが示されています。
ただし、既存のアプローチは、LLMを静的発電機として扱い、進化的探査から得られた信号でモデルを更新する機会を欠いています。
この作業では、補強学習(RL)の微調整を通じて、検索演算子であるLLMを継続的に改良することにより、LLMベースの進化検索を強化することを提案します。
私たちの方法は、改善されたアルゴリズムを発見するための探索戦略として進化的検索を活用し、RLはこれらの発見に基づいてLLMポリシーを最適化します。
ビンパッキング、巡回セールスマン、フラットパックの問題など、3つの組み合わせ最適化タスクに関する実験は、RLと進化的検索を組み合わせることで、アルゴリズムの改善の発見効率を向上させ、RL強化された進化戦略の可能性を示して、より効率的なアルゴリスムデザインのためにコンピューター科学者と数学者を支援することを示しています。

要約(オリジナル)

Discovering efficient algorithms for solving complex problems has been an outstanding challenge in mathematics and computer science, requiring substantial human expertise over the years. Recent advancements in evolutionary search with large language models (LLMs) have shown promise in accelerating the discovery of algorithms across various domains, particularly in mathematics and optimization. However, existing approaches treat the LLM as a static generator, missing the opportunity to update the model with the signal obtained from evolutionary exploration. In this work, we propose to augment LLM-based evolutionary search by continuously refining the search operator – the LLM – through reinforcement learning (RL) fine-tuning. Our method leverages evolutionary search as an exploration strategy to discover improved algorithms, while RL optimizes the LLM policy based on these discoveries. Our experiments on three combinatorial optimization tasks – bin packing, traveling salesman, and the flatpack problem – show that combining RL and evolutionary search improves discovery efficiency of improved algorithms, showcasing the potential of RL-enhanced evolutionary strategies to assist computer scientists and mathematicians for more efficient algorithm design.

arxiv情報

著者 Anja Surina,Amin Mansouri,Lars Quaedvlieg,Amal Seddas,Maryna Viazovska,Emmanuel Abbe,Caglar Gulcehre
発行日 2025-04-07 14:14:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | Algorithm Discovery With LLMs: Evolutionary Search Meets Reinforcement Learning はコメントを受け付けていません

VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

要約

値ベースのパラダイム内の推論モデルに合わせた新しいフレームワークである、推論モデルのための価値ベースの拡張近位政策最適化フレームワークを提示します。
QWEN 32Bの事前訓練モデルに基づいて構築されたAIME 2024データセットVAPOのベンチマークは、$ \ MathBF {60.4} $の最先端のスコアを達成します。
同一の実験設定下での直接比較では、VAPOは、以前に報告されたDeepSeek-R1-Zero-Qwen-32BおよびDAPOの結果を10ポイント以上上回ります。
VAPOのトレーニングプロセスは、その安定性と効率を際立たせています。
わずか5,000ステップ内で最先端のパフォーマンスに達します。
さらに、複数の独立した実行にわたって、トレーニングクラッシュは発生せず、その信頼性を強調しています。
この研究は、価値ベースの強化学習フレームワークを使用して、長い考え方(ロングコット)の推論を掘り下げています。
価値ベースの方法を悩ませる3つの重要な課題を特定します:値モデルバイアス、不均一なシーケンス長の存在、および報酬信号のスパース。
Vapoは、体系的な設計を通じて、これらの課題を効果的に緩和する統合ソリューションを提供し、長期的な推論タスクのパフォーマンスを向上させます。

要約(オリジナル)

We present VAPO, Value-based Augmented Proximal Policy Optimization framework for reasoning models., a novel framework tailored for reasoning models within the value-based paradigm. Benchmarked the AIME 2024 dataset, VAPO, built on the Qwen 32B pre-trained model, attains a state-of-the-art score of $\mathbf{60.4}$. In direct comparison under identical experimental settings, VAPO outperforms the previously reported results of DeepSeek-R1-Zero-Qwen-32B and DAPO by more than 10 points. The training process of VAPO stands out for its stability and efficiency. It reaches state-of-the-art performance within a mere 5,000 steps. Moreover, across multiple independent runs, no training crashes occur, underscoring its reliability. This research delves into long chain-of-thought (long-CoT) reasoning using a value-based reinforcement learning framework. We pinpoint three key challenges that plague value-based methods: value model bias, the presence of heterogeneous sequence lengths, and the sparsity of reward signals. Through systematic design, VAPO offers an integrated solution that effectively alleviates these challenges, enabling enhanced performance in long-CoT reasoning tasks.

arxiv情報

著者 YuYue,Yufeng Yuan,Qiying Yu,Xiaochen Zuo,Ruofei Zhu,Wenyuan Xu,Jiaze Chen,Chengyi Wang,TianTian Fan,Zhengyin Du,Xiangpeng Wei,Gaohong Liu,Juncai Liu,Lingjun Liu,Haibin Lin,Zhiqi Lin,Bole Ma,Chi Zhang,Mofan Zhang,Wang Zhang,Hang Zhu,Ru Zhang,Xin Liu,Mingxuan Wang,Yonghui Wu,Lin Yan
発行日 2025-04-07 14:21:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks はコメントを受け付けていません

The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning

要約

アライメントテクニックの理解は、指導の調整によってもたらされるゼロショットの一般化を理解することから始まりますが、メカニズムはほとんど理解されていません。
既存の作業は、タスクが人為的に定義されていることを考慮せずにタスクレベルに限定されており、LLMには単にトークンと表現で構成されています。
このギャップを埋めるために、データ自体の観点からゼロショットの一般化を調査します。
最初に、ゼロショットの一般化が指導の調整中に非常に早期に発生し、損失が安定した指標として機能することを実証します。
次に、特定のトレーニングの例への露出のタイミングが目に見えないタスクの一般化を大幅に促進する可能性があることを確認することで、類似性と粒度の観点を通じてトレーニングデータの配置を調査します。
最後に、より根拠のあるトレーニングデータの配置フレームワーク、テスト中心のマルチターン配置を提案し、継続的な学習とさ​​らなる損失削減を促進する上でその有効性を示します。
初めて、指導チューニング中のゼロショット一般化は、インスタンスレベルでのトレーニングとテストデータの間の類似性に基づいた一般化の一形態であることを示します。
私たちのコードは、https://github.com/thunlp/dynamics-of-zero-shot-generalizationでリリースされています。

要約(オリジナル)

Understanding alignment techniques begins with comprehending zero-shot generalization brought by instruction tuning, but little of the mechanism has been understood. Existing work has largely been confined to the task level, without considering that tasks are artificially defined and, to LLMs, merely consist of tokens and representations. To bridge this gap, we investigate zero-shot generalization from the perspective of the data itself. We first demonstrate that zero-shot generalization happens very early during instruction tuning, with loss serving as a stable indicator. Next, we investigate training data arrangement through similarity and granularity perspectives, confirming that the timing of exposure to certain training examples may greatly facilitate generalization on unseen tasks. Finally, we propose a more grounded training data arrangement framework, Test-centric Multi-turn Arrangement, and show its effectiveness in promoting continual learning and further loss reduction. For the first time, we show that zero-shot generalization during instruction tuning is a form of similarity-based generalization between training and test data at the instance level. Our code is released at https://github.com/thunlp/Dynamics-of-Zero-Shot-Generalization.

arxiv情報

著者 Bingxiang He,Ning Ding,Cheng Qian,Jia Deng,Ganqu Cui,Lifan Yuan,Haiwen Hong,Huan-ang Gao,Longtao Huang,Hui Xue,Huimin Chen,Zhiyuan Liu,Maosong Sun
発行日 2025-04-07 14:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning はコメントを受け付けていません

Interpretable Style Takagi-Sugeno-Kang Fuzzy Clustering

要約

クラスタリングは、データの潜在的な知識を調査するための効率的で不可欠な手法です。
ただし、ほとんどのクラスタリングアルゴリズムによって検出されたクラスターの解釈可能性には限られた注意が払われています。
さらに、データの均一性により、さまざまなグループのグループには独自の均一なスタイルがあります。
このホワイトペーパーでは、上記の2つの側面を考慮し、解釈可能なスタイルのタカギーノカン(TSK)ファジークラスタリング(IS-TSK-FC)アルゴリズムが提案されています。
IS-TSK-FCのクラスタリング動作は、ファジールールのTSKファジー推論によって完全に導かれます。
特に、サンプルは、監視されていない方法で学習したすべてのファジールールの対応する結果のベクトルによって表されるクラスターにグループ化されます。
これにより、クラスターがどのように詳細に生成されるかを説明することができ、IS-TSK-FCの基礎となる意思決定プロセスを解釈可能にします。
さらに、一連のスタイルマトリックスが導入され、クラスターのスタイルと異なるスタイル間のニュアンスをキャプチャすることにより、IS-TSK-FCのファジールールの結果を促進します。
その結果、IS-TSK-FCのすべてのファジールールには、強力なデータ表現機能があります。
すべてのファジールールの前件を決定した後、IS-TSK-FCの最適化問題は、代替方法で繰り返し解決できます。
解釈可能なクラスタリングツールとしてのIS-TSK-FCの有効性は、不明な暗黙的/明示的なスタイルを備えたベンチマークデータセットでの広範な実験を通じて検証されます。
特に、IS-TSK-FCの優れたクラスタリングパフォーマンスは、さまざまなデータグループが明示的なスタイルを示しているケーススタディで実証されています。
IS-TSK-FCのソースコードは、https://github.com/gusuhang10/is-tsk-fcからダウンロードできます。

要約(オリジナル)

Clustering is an efficient and essential technique for exploring latent knowledge of data. However, limited attention has been given to the interpretability of the clusters detected by most clustering algorithms. In addition, due to the homogeneity of data, different groups of data have their own homogeneous styles. In this paper, the above two aspects are considered, and an interpretable style Takagi-Sugeno-Kang (TSK) fuzzy clustering (IS-TSK-FC) algorithm is proposed. The clustering behavior of IS-TSK-FC is fully guided by the TSK fuzzy inference on fuzzy rules. In particular, samples are grouped into clusters represented by the corresponding consequent vectors of all fuzzy rules learned in an unsupervised manner. This can explain how the clusters are generated in detail, thus making the underlying decision-making process of the IS-TSK-FC interpretable. Moreover, a series of style matrices are introduced to facilitate the consequents of fuzzy rules in IS-TSK-FC by capturing the styles of clusters as well as the nuances between different styles. Consequently, all the fuzzy rules in IS-TSK-FC have powerful data representation capability. After determining the antecedents of all the fuzzy rules, the optimization problem of IS-TSK-FC can be iteratively solved in an alternation manner. The effectiveness of IS-TSK-FC as an interpretable clustering tool is validated through extensive experiments on benchmark datasets with unknown implicit/explicit styles. Specially, the superior clustering performance of IS-TSK-FC is demonstrated on case studies where different groups of data present explicit styles. The source code of IS-TSK-FC can be downloaded from https://github.com/gusuhang10/IS-TSK-FC.

arxiv情報

著者 Suhang Gu,Ye Wang,Yongxin Chou,Jinliang Cong,Mingli Lu,Zhuqing Jiao
発行日 2025-04-07 14:28:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Interpretable Style Takagi-Sugeno-Kang Fuzzy Clustering はコメントを受け付けていません

A Reinforcement Learning Method for Environments with Stochastic Variables: Post-Decision Proximal Policy Optimization with Dual Critic Networks

要約

この論文では、主要な深部補強学習方法の新しいバリエーションである近位政策最適化(PPO)である決定後の近位政策最適化(PDPPO)を紹介します。
PDPPO状態の遷移プロセスは、2つのステップに分けられます。決定論的なステップは、決定後の状態と次の状態につながる確率的ステップをもたらします。
私たちのアプローチには、問題の次元を減らし、値関数の推定の精度を高めるために、決定後の状態と二重批評家が組み込まれています。
ロットサイジングは、このようなダイナミクスを例示する混合整数プログラミングの問題です。
ロットサイジングの目的は、不確実な需要とコストパラメーターの生産、配信の履行、在庫レベルを最適化することです。
このペーパーでは、さまざまな環境と構成にわたるPDPPOのパフォーマンスを評価します。
特に、デュアル批評家アーキテクチャを持つPDPPOは、特定のシナリオでバニラPPOの最大報酬をほぼ2倍にし、エピソードの反復が少なくなり、異なる初期化にわたってより速くより一貫した学習を実証する必要があります。
平均して、PDPPOは、状態移行に確率的成分を持つ環境でPPOを上回ります。
これらの結果は、決定後の状態を使用することの利点をサポートしています。
値関数近似にこの決定後の状態を統合すると、高次元および確率的環境でより多くの情報に基づいた効率的な学習につながります。

要約(オリジナル)

This paper presents Post-Decision Proximal Policy Optimization (PDPPO), a novel variation of the leading deep reinforcement learning method, Proximal Policy Optimization (PPO). The PDPPO state transition process is divided into two steps: a deterministic step resulting in the post-decision state and a stochastic step leading to the next state. Our approach incorporates post-decision states and dual critics to reduce the problem’s dimensionality and enhance the accuracy of value function estimation. Lot-sizing is a mixed integer programming problem for which we exemplify such dynamics. The objective of lot-sizing is to optimize production, delivery fulfillment, and inventory levels in uncertain demand and cost parameters. This paper evaluates the performance of PDPPO across various environments and configurations. Notably, PDPPO with a dual critic architecture achieves nearly double the maximum reward of vanilla PPO in specific scenarios, requiring fewer episode iterations and demonstrating faster and more consistent learning across different initializations. On average, PDPPO outperforms PPO in environments with a stochastic component in the state transition. These results support the benefits of using a post-decision state. Integrating this post-decision state in the value function approximation leads to more informed and efficient learning in high-dimensional and stochastic environments.

arxiv情報

著者 Leonardo Kanashiro Felizardo,Edoardo Fadda,Paolo Brandimarte,Emilio Del-Moral-Hernandez,Mariá Cristina Vasconcelos Nascimento
発行日 2025-04-07 14:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, G.1.6 | A Reinforcement Learning Method for Environments with Stochastic Variables: Post-Decision Proximal Policy Optimization with Dual Critic Networks はコメントを受け付けていません

Leveraging Label Potential for Enhanced Multimodal Emotion Recognition

要約

マルチモーダル感情認識(MER)は、感情状態を正確に予測するために、さまざまなモダリティを統合しようとしています。
ただし、現在の研究では、感情ラベルの貴重な情報を見下ろすオーディオとテキスト機能の融合のみに焦点を当てています。
感情が豊富で洞察に満ちた情報を抱いているため、この監視は既存の方法のパフォーマンスを妨げる可能性があります。
この制限を克服するために、ラベルシグナルガイドマルチモーダル感情認識(LSGMER)と呼ばれる新しいモデルを導入します。
このモデルは、MERの分類精度と安定性を高めるために、感情ラベル情報の力を完全に活用することを目的としています。
具体的には、LSGMERは、ラベルの埋め込みを介してオーディオおよびテキスト機能と対話することにより、モダリティ機能の表現を最適化するラベル信号強化モジュールを採用し、感情のニュアンスを正確にキャプチャできるようにします。
さらに、融合と感情のカテゴリとのアライメントを強化する属性予測の一貫性制約(APC)を導入することにより、分類の精度を高めるための共同目的最適化(JOO)アプローチを提案します。
IEMOCAPおよびMELDデータセットで実施された広範な実験により、提案されたLSGMERモデルの有効性が実証されています。

要約(オリジナル)

Multimodal emotion recognition (MER) seeks to integrate various modalities to predict emotional states accurately. However, most current research focuses solely on the fusion of audio and text features, overlooking the valuable information in emotion labels. This oversight could potentially hinder the performance of existing methods, as emotion labels harbor rich, insightful information that could significantly aid MER. We introduce a novel model called Label Signal-Guided Multimodal Emotion Recognition (LSGMER) to overcome this limitation. This model aims to fully harness the power of emotion label information to boost the classification accuracy and stability of MER. Specifically, LSGMER employs a Label Signal Enhancement module that optimizes the representation of modality features by interacting with audio and text features through label embeddings, enabling it to capture the nuances of emotions precisely. Furthermore, we propose a Joint Objective Optimization(JOO) approach to enhance classification accuracy by introducing the Attribution-Prediction Consistency Constraint (APC), which strengthens the alignment between fused features and emotion categories. Extensive experiments conducted on the IEMOCAP and MELD datasets have demonstrated the effectiveness of our proposed LSGMER model.

arxiv情報

著者 Xuechun Shao,Yinfeng Yu,Liejun Wang
発行日 2025-04-07 15:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Leveraging Label Potential for Enhanced Multimodal Emotion Recognition はコメントを受け付けていません