UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving

要約

UNIOCCは、カメラ画像からの占有予測(つまり、歴史的情報に基づいて将来の占有を予測する)と現在の枠組み予測のための包括的で統一されたベンチマークを紹介します。
UnioCCは、複数の現実世界のデータセット(すなわち、ヌスケン、Waymo)および高忠実度の運転シミュレータ(つまり、カーラ、openCood)からのデータを統合します。
評価に関しては、評価のために最適ではない擬似ラベルに依存する既存の研究とは異なり、UNIOCCには、地面の真実の占有に依存しない新しいメトリックが組み込まれ、占有品質の追加の側面の堅牢な評価を可能にします。
最先端のモデルに関する広範な実験を通じて、大規模で多様なトレーニングデータと明示的なフロー情報が占有予測と予測パフォーマンスを大幅に向上させることを実証します。

要約(オリジナル)

We introduce UniOcc, a comprehensive, unified benchmark for occupancy forecasting (i.e., predicting future occupancies based on historical information) and current-frame occupancy prediction from camera images. UniOcc unifies data from multiple real-world datasets (i.e., nuScenes, Waymo) and high-fidelity driving simulators (i.e., CARLA, OpenCOOD), which provides 2D/3D occupancy labels with per-voxel flow annotations and support for cooperative autonomous driving. In terms of evaluation, unlike existing studies that rely on suboptimal pseudo labels for evaluation, UniOcc incorporates novel metrics that do not depend on ground-truth occupancy, enabling robust assessment of additional aspects of occupancy quality. Through extensive experiments on state-of-the-art models, we demonstrate that large-scale, diverse training data and explicit flow information significantly enhance occupancy prediction and forecasting performance.

arxiv情報

著者 Yuping Wang,Xiangyu Huang,Xiaokang Sun,Mingxuan Yan,Shuo Xing,Zhengzhong Tu,Jiachen Li
発行日 2025-03-31 17:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO | UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving はコメントを受け付けていません

Free360: Layered Gaussian Splatting for Unbounded 360-Degree View Synthesis from Extremely Sparse and Unposed Views

要約

ニューラルレンダリングは、高品質の3D神経再構成と密な入力ビューと正確なポーズを使用した新規ビューの合成で顕著な成功を示しています。
ただし、無制限の360 {\ deg}シーンで非常にまばらで順調なビューに適用すると、挑戦的な問題のままです。
このホワイトペーパーでは、無制限の360 {\ deg}シーンでの順位のない非常にまばらな3D再構成を達成するための新しいニューラルレンダリングフレームワークを提案します。
まばらな入力ビューを備えた無制限のシーンに固有の空間的な曖昧さを解決するために、層状のガウスベースの表現を提案して、明確な空間層でシーンを効果的にモデル化します。
密なステレオ再構成モデ​​ルを使用して粗いジオメトリを回復することにより、層固有のブートストラップ最適化を導入して、ノイズを改良し、再構築の閉塞領域を埋めます。
さらに、これら2つのプロセス間の相互条件付けと強化を促進するために、不確実性対応トレーニングアプローチとともに、再構築と生成の反復融合を提案します。
包括的な実験は、私たちのアプローチが、品質と表面再建の精度をレンダリングするという点で、既存の最先端の方法よりも優れていることを示しています。
プロジェクトページ:https://zju3dv.github.io/free360/

要約(オリジナル)

Neural rendering has demonstrated remarkable success in high-quality 3D neural reconstruction and novel view synthesis with dense input views and accurate poses. However, applying it to extremely sparse, unposed views in unbounded 360{\deg} scenes remains a challenging problem. In this paper, we propose a novel neural rendering framework to accomplish the unposed and extremely sparse-view 3D reconstruction in unbounded 360{\deg} scenes. To resolve the spatial ambiguity inherent in unbounded scenes with sparse input views, we propose a layered Gaussian-based representation to effectively model the scene with distinct spatial layers. By employing a dense stereo reconstruction model to recover coarse geometry, we introduce a layer-specific bootstrap optimization to refine the noise and fill occluded regions in the reconstruction. Furthermore, we propose an iterative fusion of reconstruction and generation alongside an uncertainty-aware training approach to facilitate mutual conditioning and enhancement between these two processes. Comprehensive experiments show that our approach outperforms existing state-of-the-art methods in terms of rendering quality and surface reconstruction accuracy. Project page: https://zju3dv.github.io/free360/

arxiv情報

著者 Chong Bao,Xiyu Zhang,Zehao Yu,Jiale Shi,Guofeng Zhang,Songyou Peng,Zhaopeng Cui
発行日 2025-03-31 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Free360: Layered Gaussian Splatting for Unbounded 360-Degree View Synthesis from Extremely Sparse and Unposed Views はコメントを受け付けていません

Consistent Subject Generation via Contrastive Instantiated Concepts

要約

テキストから画像への生成モデルは、多様で忠実なコンテンツを合成できますが、複数の作品にわたる主題のバリエーションは、長いコンテンツ生成のアプリケーションを制限します。
既存のアプローチでは、時間のかかるチューニング、すべての被験者の参照、または他の作品へのアクセスが必要です。
Contrastive Concept Instantiation(Cocoins)を導入して、複数の独立した作品にわたって一貫した被験者を効果的に合成します。
フレームワークは、生成モデルとマッピングネットワークで構成され、入力潜在コードを特定の概念のインスタンスに関連付けられた擬似ワードに変換します。
ユーザーは、同じ潜在コードで一貫した被験者を生成できます。
このような関連性を構築するために、プロンプトと潜在コードの組み合わせを区別するためにネットワークを訓練する対照的な学習アプローチを提案します。
単一の被験者を使用した人間の顔の広範な評価は、ココインがより高い柔軟性を維持しながら、既存の方法と同等に機能することを示しています。
また、複数の被験者やその他のオブジェクトカテゴリにココインを拡張する可能性も示しています。

要約(オリジナル)

While text-to-image generative models can synthesize diverse and faithful contents, subject variation across multiple creations limits the application in long content generation. Existing approaches require time-consuming tuning, references for all subjects, or access to other creations. We introduce Contrastive Concept Instantiation (CoCoIns) to effectively synthesize consistent subjects across multiple independent creations. The framework consists of a generative model and a mapping network, which transforms input latent codes into pseudo-words associated with certain instances of concepts. Users can generate consistent subjects with the same latent codes. To construct such associations, we propose a contrastive learning approach that trains the network to differentiate the combination of prompts and latent codes. Extensive evaluations of human faces with a single subject show that CoCoIns performs comparably to existing methods while maintaining higher flexibility. We also demonstrate the potential of extending CoCoIns to multiple subjects and other object categories.

arxiv情報

著者 Lee Hsin-Ying,Kelvin C. K. Chan,Ming-Hsuan Yang
発行日 2025-03-31 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Consistent Subject Generation via Contrastive Instantiated Concepts はコメントを受け付けていません

SU-YOLO: Spiking Neural Network for Efficient Underwater Object Detection

要約

水中オブジェクトの検出は、海洋研究と産業安全検査にとって重要です。
ただし、複雑な光学環境と水中機器の限られたリソースは、高精度と低電力消費を達成するために大きな課題をもたらします。
これらの問題に対処するために、スパイクニューラルネットワーク(SNN)モデルである水中ヨロ(Su-Yolo)をスパイクすることを提案します。
SU-Yoloは、SNNSの軽量およびエネルギー効率の高い特性を活用して、整数添加のみに基づいた新しいスパイクベースの水中画像除去方法を組み込んでおり、最小計算オーバーヘッドでフィーチャマップの品質を高めます。
さらに、複数の時間ステップでフィーチャマップを独立して正規化し、残留構造との統合のためにSNNの時間的ダイナミクスをより効果的にキャプチャするために最適化される技術である分離バッチ正規化(SEBN)を導入します。
再設計されたスパイキング残留ブロックは、クロスステージ部分ネットワーク(CSPNET)をYoLoアーキテクチャと統合して、スパイクの劣化を緩和し、モデルの特徴抽出機能を強化します。
URPC2019水中データセットの実験結果は、Su-Yoloが6.97mパラメーターと2.98 MJのエネルギー消費量で78.8%のマップを達成し、検出精度と計算効率の両方で主流のSNNモデルを上回ることを示しています。
これらの結果は、エンジニアリングアプリケーションのSNNの可能性を強調しています。
このコードは、https://github.com/lwxfight/snn-underwaterで入手できます。

要約(オリジナル)

Underwater object detection is critical for oceanic research and industrial safety inspections. However, the complex optical environment and the limited resources of underwater equipment pose significant challenges to achieving high accuracy and low power consumption. To address these issues, we propose Spiking Underwater YOLO (SU-YOLO), a Spiking Neural Network (SNN) model. Leveraging the lightweight and energy-efficient properties of SNNs, SU-YOLO incorporates a novel spike-based underwater image denoising method based solely on integer addition, which enhances the quality of feature maps with minimal computational overhead. In addition, we introduce Separated Batch Normalization (SeBN), a technique that normalizes feature maps independently across multiple time steps and is optimized for integration with residual structures to capture the temporal dynamics of SNNs more effectively. The redesigned spiking residual blocks integrate the Cross Stage Partial Network (CSPNet) with the YOLO architecture to mitigate spike degradation and enhance the model’s feature extraction capabilities. Experimental results on URPC2019 underwater dataset demonstrate that SU-YOLO achieves mAP of 78.8% with 6.97M parameters and an energy consumption of 2.98 mJ, surpassing mainstream SNN models in both detection accuracy and computational efficiency. These results underscore the potential of SNNs for engineering applications. The code is available in https://github.com/lwxfight/snn-underwater.

arxiv情報

著者 Chenyang Li,Wenxuan Liu,Guoqiang Gong,Xiaobo Ding,Xian Zhong
発行日 2025-03-31 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NE | SU-YOLO: Spiking Neural Network for Efficient Underwater Object Detection はコメントを受け付けていません

Easi3R: Estimating Disentangled Motion from DUSt3R Without Training

要約

Dust3Rの最近の進歩により、静的なシーンの密なポイント雲とカメラパラメーターの堅牢な推定が可能になり、トランスネットワークアーキテクチャを活用し、大規模な3Dデータセットの直接監督が可能になりました。
対照的に、利用可能な4Dデータセットの限られたスケールと多様性は、非常に一般化可能な4Dモデルをトレーニングするための主要なボトルネックを提示します。
この制約により、従来の4Dメソッドは、光学フローや深さなどの追加の幾何学的事前にスケーラブルな動的ビデオデータで3Dモデルを微調整するようになりました。
この作業では、反対側のパスを取り、4D再構築のためのシンプルで効率的なトレーニングフリーの方法であるEASI3Rを導入します。
私たちのアプローチは、推論中に注意の適応を適用し、SCRATCHからのプリトレーニングまたはネットワークの微調整の必要性を排除します。
Dust3Rの注意層は、カメラとオブジェクトの動きに関する豊富な情報を本質的にエンコードしていることがわかります。
これらの注意マップを注意深く解き放つことにより、正確な動的領域セグメンテーション、カメラポーズ推定、4D密度のポイントマップ再構成を実現します。
現実世界の動的ビデオでの広範な実験は、私たちの軽量の注意の適応が、広範な動的データセットでトレーニングまたは微調整された以前の最先端の方法を大幅に上回ることを示しています。
私たちのコードは、https://easi3r.github.io/で研究目的で公開されています

要約(オリジナル)

Recent advances in DUSt3R have enabled robust estimation of dense point clouds and camera parameters of static scenes, leveraging Transformer network architectures and direct supervision on large-scale 3D datasets. In contrast, the limited scale and diversity of available 4D datasets present a major bottleneck for training a highly generalizable 4D model. This constraint has driven conventional 4D methods to fine-tune 3D models on scalable dynamic video data with additional geometric priors such as optical flow and depths. In this work, we take an opposite path and introduce Easi3R, a simple yet efficient training-free method for 4D reconstruction. Our approach applies attention adaptation during inference, eliminating the need for from-scratch pre-training or network fine-tuning. We find that the attention layers in DUSt3R inherently encode rich information about camera and object motion. By carefully disentangling these attention maps, we achieve accurate dynamic region segmentation, camera pose estimation, and 4D dense point map reconstruction. Extensive experiments on real-world dynamic videos demonstrate that our lightweight attention adaptation significantly outperforms previous state-of-the-art methods that are trained or finetuned on extensive dynamic datasets. Our code is publicly available for research purpose at https://easi3r.github.io/

arxiv情報

著者 Xingyu Chen,Yue Chen,Yuliang Xiu,Andreas Geiger,Anpei Chen
発行日 2025-03-31 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Easi3R: Estimating Disentangled Motion from DUSt3R Without Training はコメントを受け付けていません

Evil twins are not that evil: Qualitative insights into machine-generated prompts

要約

言語モデル(LMS)は、予測可能な方法で、一見理解できないように見えるアルゴリズム的に生成されたプロンプトに応答することが広く観察されています。
これは、LMSがどのように機能するかを完全に理解していないことと実際的な課題の両方であり、JailbreakingなどのLMSの有害な使用には不透明度が悪用される可能性があるためです。
6 LMSの異なるサイズとファミリに関連する不透明な機械で生成されたプロンプトまたはオートプロムの最初の徹底的な分析を提示します。
機械で生成されたプロンプトは、しばしば理解可能であり、世代に強く影響する最後のトークンによって特徴付けられていることがわかります。
前のトークンのわずかで一貫した割合が剪定でき、おそらく最適化プロセスがトークンの数を修正するという事実の副産物としてプロンプトに表示されます。
残りのトークンは2つのカテゴリに分類されます。フィラートークンは、意味的に無関係な代替物に置き換えることができ、キーワードは少なくとも生成とのゆるい意味関係を持つ傾向がありますが、それとは十分に形成された構文関係に従事していません。
さらに、人間の専門家は、事後のオートプレムで最も影響力のあるトークンを確実に識別することができ、これらのプロンプトは完全に不透明ではないことを示唆しています。
最後に、私たちがオートプロムに適用したアブレーションのいくつかは、自然言語の入力で同様の効果をもたらし、LMSがLMSを一般的に言語入力を処理する方法から自然に現れることを示唆しています。

要約(オリジナル)

It has been widely observed that language models (LMs) respond in predictable ways to algorithmically generated prompts that are seemingly unintelligible. This is both a sign that we lack a full understanding of how LMs work, and a practical challenge, because opaqueness can be exploited for harmful uses of LMs, such as jailbreaking. We present the first thorough analysis of opaque machine-generated prompts, or autoprompts, pertaining to 6 LMs of different sizes and families. We find that machine-generated prompts are characterized by a last token that is often intelligible and strongly affects the generation. A small but consistent proportion of the previous tokens are prunable, probably appearing in the prompt as a by-product of the fact that the optimization process fixes the number of tokens. The remaining tokens fall into two categories: filler tokens, which can be replaced with semantically unrelated substitutes, and keywords, that tend to have at least a loose semantic relation with the generation, although they do not engage in well-formed syntactic relations with it. Additionally, human experts can reliably identify the most influential tokens in an autoprompt a posteriori, suggesting these prompts are not entirely opaque. Finally, some of the ablations we applied to autoprompts yield similar effects in natural language inputs, suggesting that autoprompts emerge naturally from the way LMs process linguistic inputs in general.

arxiv情報

著者 Nathanaël Carraz Rakotonirina,Corentin Kervadec,Francesca Franzon,Marco Baroni
発行日 2025-03-31 16:33:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Evil twins are not that evil: Qualitative insights into machine-generated prompts はコメントを受け付けていません

EQ-Negotiator: An Emotion-Reasoning LLM Agent in Credit Dialogues

要約

大規模な言語モデル(LLM)ベースのチャットボットは、クレジットの対話に効果的に関与するために適用されていますが、動的な感情表現の能力は限られたままです。
現在のエージェントは、主に感情的な推論ではなく、受動的な共感に依存しています。
たとえば、持続的なクライアントの否定性に直面した場合、エージェントは測定された怒りを表現して逆効果的な行動を思いとどまらせ、解決に向けて会話を導くことにより、戦略的な感情的適応を採用する必要があります。
このコンテキストを意識した感情的変調は、人間の交渉者の微妙な意思決定を模倣するために不可欠です。
このペーパーでは、事前訓練を受けた言語モデル(PLM)からの感情センシングと、ゲーム理論と隠されたマルコフモデルに基づく感情的推論を組み合わせたEQネゴチエーターを紹介します。
相互作用中に否定的な感情をより適切に管理および対処するために、クライアントの現在と歴史的な感情の両方を考慮しています。
公共の感情データセットで事前訓練を受けた言語モデル(PLM)を微調整し、クレジットダイアログデータセットでそれらを検証することにより、LLMベースのエージェントはクライアント感情のシフトを効果的にキャプチャし、実際の金融交渉における感情決定ポリシーに基づいて応答トーンを動的に調整することができます。
このEQネゴチャンは、クレジット機関が積極的なクライアント関係を促進し、クレジットサービスの満足度を高めるのにも役立ちます。

要約(オリジナル)

While large language model (LLM)-based chatbots have been applied for effective engagement in credit dialogues, their capacity for dynamic emotional expression remains limited. Current agents primarily rely on passive empathy rather than affective reasoning. For instance, when faced with persistent client negativity, the agent should employ strategic emotional adaptation by expressing measured anger to discourage counterproductive behavior and guide the conversation toward resolution. This context-aware emotional modulation is essential for imitating the nuanced decision-making of human negotiators. This paper introduces an EQ-negotiator that combines emotion sensing from pre-trained language models (PLMs) with emotional reasoning based on Game Theory and Hidden Markov Models. It takes into account both the current and historical emotions of the client to better manage and address negative emotions during interactions. By fine-tuning pre-trained language models (PLMs) on public emotion datasets and validating them on the credit dialogue datasets, our approach enables LLM-based agents to effectively capture shifts in client emotions and dynamically adjust their response tone based on our emotion decision policies in real-world financial negotiations. This EQ-negotiator can also help credit agencies foster positive client relationships, enhancing satisfaction in credit services.

arxiv情報

著者 Yuhan Liu,Yunbo Long
発行日 2025-03-31 17:55:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | EQ-Negotiator: An Emotion-Reasoning LLM Agent in Credit Dialogues はコメントを受け付けていません

ActionStudio: A Lightweight Framework for Data and Training of Large Action Models

要約

アクションモデルは、自律エージェントが複雑なタスクを実行できるようにするために不可欠です。
ただし、エージェント環境の多様性とエージェントデータの複雑さにより、大規模なアクションモデルのトレーニングは依然として困難です。
関心が高まっているにもかかわらず、既存のインフラストラクチャは、スケーラブルなエージェント固有の微調整に対する限られたサポートを提供します。
大規模なアクションモデル向けに設計された軽量で拡張可能なデータおよびトレーニングフレームワークであるActionStudioを提示します。
ActionStudioは、標準化された形式を介して不均一なエージェントの軌跡を統合し、LORA、完全な微調整、分散セットアップなどの多様なトレーニングパラダイムをサポートし、堅牢な前処理と検証ツールを統合します。
公共および現実的な業界の両方のベンチマークにわたるその有効性を検証し、強力なパフォーマンスと実用的なスケーラビリティを示しています。
コミュニティでの研究を促進するために、https://github.com/salesforceairesearch/xlamでコードとデータをオープンしました。

要約(オリジナル)

Action models are essential for enabling autonomous agents to perform complex tasks. However, training large action models remains challenging due to the diversity of agent environments and the complexity of agentic data. Despite growing interest, existing infrastructure provides limited support for scalable, agent-specific fine-tuning. We present ActionStudio, a lightweight and extensible data and training framework designed for large action models. ActionStudio unifies heterogeneous agent trajectories through a standardized format, supports diverse training paradigms including LoRA, full fine-tuning, and distributed setups, and integrates robust preprocessing and verification tools. We validate its effectiveness across both public and realistic industry benchmarks, demonstrating strong performance and practical scalability. We open-sourced code and data at https://github.com/SalesforceAIResearch/xLAM to facilitate research in the community.

arxiv情報

著者 Jianguo Zhang,Thai Hoang,Ming Zhu,Zuxin Liu,Shiyu Wang,Tulika Awalgaonkar,Akshara Prabhakar,Haolin Chen,Weiran Yao,Zhiwei Liu,Juntao Tan,Juan Carlos Niebles,Shelby Heinecke,Huan Wang,Silvio Savarese,Caiming Xiong
発行日 2025-03-31 16:38:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ActionStudio: A Lightweight Framework for Data and Training of Large Action Models はコメントを受け付けていません

Grasping a Handful: Sequential Multi-Object Dexterous Grasp Generation

要約

ロボットハンドの部分的な自由度(DOF)を使用して、多様なオブジェクトの安定したグラスを堅牢に合成できる、シーケンシャルマルチオブジェクトロボットグラスサンプリングアルゴリズムSeqGraspを導入します。
SEQGRASPを使用して、大規模なAllegroハンドシーケンシャルグレーシングデータセットseqdatasetを構築し、拡散ベースのシーケンシャルグラスジェネレーターSeqdiffuserのトレーニングに使用します。
シミュレーションおよび実際のロボットで、最先端の非採点マルチオブジェクトグラスグラスグラスグラスメソッドMultigraspに対してSeqgraspとSeqdiffuserを実験的に評価します。
実験結果は、SeqgraspとSeqdiffuserがMultiGraspよりも8.71%-43.33%上昇した成功率に達することを示しています。
さらに、seqdiffuserは、seqgraspおよびmultigraspよりも、把握の生成が約1000倍高速です。

要約(オリジナル)

We introduce the sequential multi-object robotic grasp sampling algorithm SeqGrasp that can robustly synthesize stable grasps on diverse objects using the robotic hand’s partial Degrees of Freedom (DoF). We use SeqGrasp to construct the large-scale Allegro Hand sequential grasping dataset SeqDataset and use it for training the diffusion-based sequential grasp generator SeqDiffuser. We experimentally evaluate SeqGrasp and SeqDiffuser against the state-of-the-art non-sequential multi-object grasp generation method MultiGrasp in simulation and on a real robot. The experimental results demonstrate that SeqGrasp and SeqDiffuser reach an 8.71%-43.33% higher grasp success rate than MultiGrasp. Furthermore, SeqDiffuser is approximately 1000 times faster at generating grasps than SeqGrasp and MultiGrasp.

arxiv情報

著者 Haofei Lu,Yifei Dong,Zehang Weng,Jens Lundell,Danica Kragic
発行日 2025-03-31 09:06:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Grasping a Handful: Sequential Multi-Object Dexterous Grasp Generation はコメントを受け付けていません

Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning

要約

エントロピー誘導シーケンス重み付け(EGSW)を導入します。これは、強化学習ベースの大手言語モデルの微調整のための利点とエントロピーに基づいて、生成された出力に重みを動的に割り当てることにより、探査と露出のトレードオフを強化する新しいアプローチです。
EGSWは、エントロピーの正則化をアドバンテージベースの重み付けと統合して、ポリシーの更新のバランスを取り、高次元の状態空間での効率的な探索を可能にします。
シーケンスにわたって温度スケールのソフトマックスの重み付けを使用することにより、EGSWはトレーニングの安定性を維持しながら、高報酬の高度不確実なステップを優先します。
もともとは、大規模な言語モデル(LLM)の微調整中にグループ相対ポリシーの最適化(GRPO)を改善するために開発されましたが、EGSWは他の強化学習(RL)アルゴリズムに一般化でき、段階的および軌跡ごとの設定の両方で実装できます。
経験的評価は、EGSWがGRPO推論能力を高め、サンプル効率の改善をもたらすことを示しています。
将来の作業では、EGSWの高度なRL方法論への適用を調査します。

要約(オリジナル)

We introduce Entropy-Guided Sequence Weighting (EGSW), a novel approach that enhances the exploration-exploitation tradeoff by dynamically assigning weights to generated outputs based on their advantage and entropy for Reinforcement Learning-based Large Language Model fine-tuning. EGSW integrates entropy regularization with advantage-based weighting to balance policy updates, enabling efficient exploration in high-dimensional state spaces. By employing temperature-scaled softmax weighting over sequences, EGSW prioritizing high-reward, high-uncertainty steps while maintaining training stability. Although originally developed to improve Group Relative Policy Optimization (GRPO) during large language model (LLM) fine-tuning, EGSW is generalizable to other reinforcement learning (RL) algorithms and can be implemented in both step-wise and trajectory-wise settings. Empirical evaluations demonstrate that EGSW enhances GRPO reasoning ability, yielding improvements in sample efficiency. Future work will explore the application of EGSW to advanced RL methodologies.

arxiv情報

著者 Abdullah Vanlioglu
発行日 2025-03-31 10:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning はコメントを受け付けていません