What Makes a Reward Model a Good Teacher? An Optimization Perspective

要約

人間のフィードバック(RLHF)からの強化学習の成功は、報酬モデルの品質に大きく依存します。
この品質は主に精度を通じて評価されますが、正確さが報酬モデルを効果的な教師にするものを完全に捉えるかどうかは不明のままです。
この質問に最適化の観点から対処します。
まず、報酬モデルがどれほど正確であるかに関係なく、報酬の差異が低い場合、RLHFの客観的な状況が平らな風景に苦しむことを証明します。
その結果、完全に正確な報酬モデルでさえ、最適化が非常に遅くなり、より高い報酬の差異を引き起こすより正確なモデルを下回ることができます。
さらに、ある言語モデルに適した報酬モデルが低報酬の差異を誘発する可能性があることを示しています。
これらの結果は、正確性のみに基づいて、またはガイドする言語モデルとは独立して報酬モデルを評価するという基本的な制限を確立します。
最大8Bパラメーターのモデルを使用した実験は、私たちの理論を裏付け、報酬の分散、精度、報酬の最大化率の相互作用を実証します。
全体として、私たちの調査結果は、精度を超えて、報酬モデルが効率的な最適化のために十分な分散を誘導する必要があることを強調しています。

要約(オリジナル)

The success of Reinforcement Learning from Human Feedback (RLHF) critically depends on the quality of the reward model. While this quality is primarily evaluated through accuracy, it remains unclear whether accuracy fully captures what makes a reward model an effective teacher. We address this question from an optimization perspective. First, we prove that regardless of how accurate a reward model is, if it induces low reward variance, then the RLHF objective suffers from a flat landscape. Consequently, even a perfectly accurate reward model can lead to extremely slow optimization, underperforming less accurate models that induce higher reward variance. We additionally show that a reward model that works well for one language model can induce low reward variance, and thus a flat objective landscape, for another. These results establish a fundamental limitation of evaluating reward models solely based on accuracy or independently of the language model they guide. Experiments using models of up to 8B parameters corroborate our theory, demonstrating the interplay between reward variance, accuracy, and reward maximization rate. Overall, our findings highlight that beyond accuracy, a reward model needs to induce sufficient variance for efficient optimization.

arxiv情報

著者 Noam Razin,Zixuan Wang,Hubert Strauss,Stanley Wei,Jason D. Lee,Sanjeev Arora
発行日 2025-03-19 17:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | What Makes a Reward Model a Good Teacher? An Optimization Perspective はコメントを受け付けていません

Learning to Play Piano in the Real World

要約

ロボットで人間レベルの操作を達成するという壮大な挑戦に向けて、ピアノを演奏することは、戦略的、正確、流れる動きを必要とする説得力のあるテストベッドです。
長年にわたり、いくつかの作品は、Real World Pianoの演奏に関する手描きのコントローラーを実証しましたが、他の作品はシミュレートされたピアノシナリオでロボット学習アプローチを評価しました。
この論文では、現実世界の器用なロボットに展開されながら学習アプローチを利用するロボットシステムを演奏する最初のピアノを開発します。
具体的には、SIM2REALを利用して、現実世界の器用なロボットに関する学習ポリシーを展開する前に、強化学習を使用してシミュレーションのポリシーをトレーニングします。
実験では、ドメインのランダム化とシミュレーションで使用されるダイナミクスモデルの精度との相互作用を徹底的に評価します。
さらに、学習ポリシーの一般化を研究するために、さまざまな複雑さで複数の曲にわたるロボットのパフォーマンスを評価します。
現実の世界でピアノを演奏することを学ぶことの概念の証明を提供することにより、私たちはコミュニティが人間レベルの操作に向けた魅力的なベンチマークとしてピアノ演奏を採用することを奨励したいと考えています。
https://lasr.org/research/learning-to-play-pianoでコードをオープンし、追加のビデオを表示します。

要約(オリジナル)

Towards the grand challenge of achieving human-level manipulation in robots, playing piano is a compelling testbed that requires strategic, precise, and flowing movements. Over the years, several works demonstrated hand-designed controllers on real world piano playing, while other works evaluated robot learning approaches on simulated piano scenarios. In this paper, we develop the first piano playing robotic system that makes use of learning approaches while also being deployed on a real world dexterous robot. Specifically, we make use of Sim2Real to train a policy in simulation using reinforcement learning before deploying the learned policy on a real world dexterous robot. In our experiments, we thoroughly evaluate the interplay between domain randomization and the accuracy of the dynamics model used in simulation. Moreover, we evaluate the robot’s performance across multiple songs with varying complexity to study the generalization of our learned policy. By providing a proof-of-concept of learning to play piano in the real world, we want to encourage the community to adopt piano playing as a compelling benchmark towards human-level manipulation. We open-source our code and show additional videos at https://lasr.org/research/learning-to-play-piano .

arxiv情報

著者 Yves-Simon Zeulner,Sandeep Selvaraj,Roberto Calandra
発行日 2025-03-19 17:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Learning to Play Piano in the Real World はコメントを受け付けていません

Value Profiles for Encoding Human Variation

要約

評価タスクにおける人間の変動のモデリングは、パーソナライズ、多元的モデルアライメント、および計算社会科学のためにAIシステムを有効にするために重要です。
値プロファイルを使用して個人を表現することを提案します – コンテキスト内デモンストレーションから圧縮された根本的な値の自然言語の説明と、バリュープロファイルまたはその他の評価者情報を条件付けた評価を推定する操縦可能なデコーダーモデルを提案します。
評価者表現の予測情報を測定するために、情報理論的方法論を紹介します。
デモンストレーションにはほとんどの情報が含まれており、その後に値プロファイル、その後人口統計が含まれていることがわかります。
ただし、バリュープロファイルは、圧縮された自然言語形式による精査、解釈可能性、および操縦性の点で利点を提供します。
値プロファイルは、デモンストレーションから有用な情報を効果的に圧縮します(> 70%の情報保存)。
さらに、同様に動作する個人を識別するためのクラスタリング値プロファイルは、最も予測的な人口統計グループよりも評価者の変動をよりよく説明します。
テストセットのパフォーマンスを超えて、デコーダーモデルはセマンティックプロファイルの違いに応じて評価を解釈的に変更し、適切に調整されており、アノテーター集団をシミュレートすることによりインスタンスレベルの意見の不一致を説明するのに役立つことが示されます。
これらの結果は、バリュープロファイルが、人口統計やグループ情報を超えた個々のバリエーションを記述する斬新で予測的な方法を提供することを示しています。

要約(オリジナル)

Modelling human variation in rating tasks is crucial for enabling AI systems for personalization, pluralistic model alignment, and computational social science. We propose representing individuals using value profiles — natural language descriptions of underlying values compressed from in-context demonstrations — along with a steerable decoder model to estimate ratings conditioned on a value profile or other rater information. To measure the predictive information in rater representations, we introduce an information-theoretic methodology. We find that demonstrations contain the most information, followed by value profiles and then demographics. However, value profiles offer advantages in terms of scrutability, interpretability, and steerability due to their compressed natural language format. Value profiles effectively compress the useful information from demonstrations (>70% information preservation). Furthermore, clustering value profiles to identify similarly behaving individuals better explains rater variation than the most predictive demographic groupings. Going beyond test set performance, we show that the decoder models interpretably change ratings according to semantic profile differences, are well-calibrated, and can help explain instance-level disagreement by simulating an annotator population. These results demonstrate that value profiles offer novel, predictive ways to describe individual variation beyond demographics or group information.

arxiv情報

著者 Taylor Sorensen,Pushkar Mishra,Roma Patel,Michael Henry Tessler,Michiel Bakker,Georgina Evans,Iason Gabriel,Noah Goodman,Verena Rieser
発行日 2025-03-19 17:57:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG | Value Profiles for Encoding Human Variation はコメントを受け付けていません

Mitigating Ambiguities in 3D Classification with Gaussian Splatting

要約

ポイントクラウド入力による3D分類は、3Dビジョンの根本的な問題です。
ただし、個別の性質と点雲の表現の不十分な材料の説明により、ワイヤーのような表面と平らな表面を区別することには曖昧さがあり、透明または反射オブジェクトがあります。
これらの問題に対処するために、ガウススプラッティング(GS)ポイントクラウドベースの3D分類を提案します。
GSポイントクラウドのスケールと回転係数は、表面タイプを特徴付けるのに役立つことがわかります。
具体的には、ワイヤーのような表面は複数の細いガウス楕円体で構成され、平らな表面はいくつかの平らなガウス楕円体で構成されています。
さらに、GSポイントクラウドの不透明度は、オブジェクトの透明性特性を表します。
その結果、Point Cloudベースの3D分類のあいまいさは、GS Point Cloudを入力として利用して緩和できます。
GSポイントクラウド入力の有効性を検証するために、各カテゴリに200のオブジェクトを備えた20のカテゴリを含むコミュニティで、最初の実際のGSポイントクラウドデータセットを構築します。
実験は、特に曖昧なオブジェクトを区別する際に、GSポイントクラウドの入力の優位性を検証するだけでなく、異なる分類方法にわたる一般化能力を実証します。

要約(オリジナル)

3D classification with point cloud input is a fundamental problem in 3D vision. However, due to the discrete nature and the insufficient material description of point cloud representations, there are ambiguities in distinguishing wire-like and flat surfaces, as well as transparent or reflective objects. To address these issues, we propose Gaussian Splatting (GS) point cloud-based 3D classification. We find that the scale and rotation coefficients in the GS point cloud help characterize surface types. Specifically, wire-like surfaces consist of multiple slender Gaussian ellipsoids, while flat surfaces are composed of a few flat Gaussian ellipsoids. Additionally, the opacity in the GS point cloud represents the transparency characteristics of objects. As a result, ambiguities in point cloud-based 3D classification can be mitigated utilizing GS point cloud as input. To verify the effectiveness of GS point cloud input, we construct the first real-world GS point cloud dataset in the community, which includes 20 categories with 200 objects in each category. Experiments not only validate the superiority of GS point cloud input, especially in distinguishing ambiguous objects, but also demonstrate the generalization ability across different classification methods.

arxiv情報

著者 Ruiqi Zhang,Hao Zhu,Jingyi Zhao,Qi Zhang,Xun Cao,Zhan Ma
発行日 2025-03-19 14:18:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mitigating Ambiguities in 3D Classification with Gaussian Splatting はコメントを受け付けていません

GaussRender: Learning 3D Occupancy with Gaussian Rendering

要約

運転シーンの3Dジオメトリとセマンティクスを理解することは、安全な自律運転にとって重要です。
3D占有予測の最近の進歩により、シーンの表現が改善されましたが、多くの場合、空間的な矛盾に悩まされ、浮動的なアーティファクトと表面の局在が不十分になります。
既存のボクセルごとの損失(たとえば、クロスエントロピー)は、幾何学的一貫性を実施できません。
この論文では、射影の一貫性を実施することにより3D占有学習を改善するモジュールであるGaussRenderを提案します。
私たちの重要なアイデアは、予測されたものとグラウンドトゥルース3Dの両方の占有の両方を2Dカメラビューに投影し、監督を適用することです。
私たちの方法は、一貫性のない2Dプロジェクションを生成する3D構成を罰し、よりコヒーレントな3D構造を実施します。
これを効率的に達成するために、ガウスのスプラッティングで微分可能なレンダリングを活用します。
GaussRenderは、効率を維持し、推論時間の変更を必要とせずに、既存のアーキテクチャとシームレスに統合します。
複数のベンチマークでの広範な評価(Courvledocc-Nuscenes、Occ3D-Nuscenes、Sscbench-Kitti360)は、GaussRenderがさまざまな3D占有モデル(TPVFormer、Courvdleocc、Symphonies)にわたって幾何学的忠実度を大幅に改善し、特に最先端の結果を達成することを示しています。
このコードは、https://github.com/valeoai/gaussrenderでオープンソーリングされています。

要約(オリジナル)

Understanding the 3D geometry and semantics of driving scenes is critical for safe autonomous driving. Recent advances in 3D occupancy prediction have improved scene representation but often suffer from spatial inconsistencies, leading to floating artifacts and poor surface localization. Existing voxel-wise losses (e.g., cross-entropy) fail to enforce geometric coherence. In this paper, we propose GaussRender, a module that improves 3D occupancy learning by enforcing projective consistency. Our key idea is to project both predicted and ground-truth 3D occupancy into 2D camera views, where we apply supervision. Our method penalizes 3D configurations that produce inconsistent 2D projections, thereby enforcing a more coherent 3D structure. To achieve this efficiently, we leverage differentiable rendering with Gaussian splatting. GaussRender seamlessly integrates with existing architectures while maintaining efficiency and requiring no inference-time modifications. Extensive evaluations on multiple benchmarks (SurroundOcc-nuScenes, Occ3D-nuScenes, SSCBench-KITTI360) demonstrate that GaussRender significantly improves geometric fidelity across various 3D occupancy models (TPVFormer, SurroundOcc, Symphonies), achieving state-of-the-art results, particularly on surface-sensitive metrics. The code is open-sourced at https://github.com/valeoai/GaussRender.

arxiv情報

著者 Loïck Chambon,Eloi Zablocki,Alexandre Boulch,Mickaël Chen,Matthieu Cord
発行日 2025-03-19 14:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GaussRender: Learning 3D Occupancy with Gaussian Rendering はコメントを受け付けていません

DEPT: Deep Extreme Point Tracing for Ultrasound Image Segmentation

要約

自動医療画像セグメンテーションは、コンピューター支援診断において重要な役割を果たします。
ただし、完全に監視されている学習アプローチには、多くの場合、大規模で労働集約的な注釈の取り組みが必要です。
この課題に対処するために、監視された学習方法、特に極端なポイントを監督信号として使用する方法は、効果的なソリューションを提供する可能性があります。
このホワイトペーパーでは、超音波画像セグメンテーションのために、機能誘導極端なポイントマスキング(FGEPM)アルゴリズムと統合されたディープエクストリームポイントトレース(Dept)を紹介します。
特に、この方法は、機能マップベースのコストマトリックスのすべての極端なポイントを接続する最低コストのパスを識別することにより、擬似ラベルを生成します。
さらに、擬似ラベルを徐々に改良し、継続的なネットワークの改善を可能にする反復トレーニング戦略が提案されています。
2つのパブリックデータセットの実験結果は、提案された方法の有効性を示しています。
私たちの方法のパフォーマンスは、完全に監視された方法のパフォーマンスに近づき、いくつかの既存の弱い監視された方法を上回ります。

要約(オリジナル)

Automatic medical image segmentation plays a crucial role in computer aided diagnosis. However, fully supervised learning approaches often require extensive and labor-intensive annotation efforts. To address this challenge, weakly supervised learning methods, particularly those using extreme points as supervisory signals, have the potential to offer an effective solution. In this paper, we introduce Deep Extreme Point Tracing (DEPT) integrated with Feature-Guided Extreme Point Masking (FGEPM) algorithm for ultrasound image segmentation. Notably, our method generates pseudo labels by identifying the lowest-cost path that connects all extreme points on the feature map-based cost matrix. Additionally, an iterative training strategy is proposed to refine pseudo labels progressively, enabling continuous network improvement. Experimental results on two public datasets demonstrate the effectiveness of our proposed method. The performance of our method approaches that of the fully supervised method and outperforms several existing weakly supervised methods.

arxiv情報

著者 Lei Shi,Xi Fang,Naiyu Wang,Junxing Zhang
発行日 2025-03-19 14:32:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DEPT: Deep Extreme Point Tracing for Ultrasound Image Segmentation はコメントを受け付けていません

LEGION: Learning to Ground and Explain for Synthetic Image Detection

要約

生成技術の急速な進歩は、両刃の剣として浮上しています。
利便性を高める強力なツールを提供しますが、彼らはまた重要な社会的懸念をもたらします。
擁護者として、現在の合成画像検出方法は、しばしばアーティファクトレベルのテキストの解釈可能性を欠いており、画像操作の検出に過度に焦点を当てており、現在のデータセットは通常、時代遅れの発電機と細かい注釈が不足しています。
このペーパーでは、ヒト専門用アノテーションを備えた12,236の完全な合成画像で構成される高品質で多様なデータセットであるSynthscarsを紹介します。
4つの異なる画像コンテンツタイプ、3つのカテゴリのアーティファクト、およびピクセルレベルのセグメンテーション、詳細なテキストの説明、およびアーティファクトカテゴリラベルをカバーするファイングレインの注釈が備わっています。
さらに、アーティファクト検出、セグメンテーション、および説明を統合するマルチモーダル大手言語モデル(MLLM)ベースの画像分析フレームワークであるレギオン(合成画像検出のために根拠と説明を学ぶ)を提案します。
この機能に基づいて、レギオンをコントローラーとしてさらに探索し、画像の改良パイプラインに統合して、より高品質でより現実的な画像の生成を導きます。
広範な実験では、Legionが複数のベンチマークにわたって既存の方法よりも優れていることが示されており、特にMIOUで2番目に良い従来のエキスパートをMIOUで3.31%、F1スコアで7.75%超えています。
さらに、そのガイダンスの下で生成された洗練された画像は、人間の好みとより強い整合性を示しています。
コード、モデル、およびデータセットがリリースされます。

要約(オリジナル)

The rapid advancements in generative technology have emerged as a double-edged sword. While offering powerful tools that enhance convenience, they also pose significant social concerns. As defenders, current synthetic image detection methods often lack artifact-level textual interpretability and are overly focused on image manipulation detection, and current datasets usually suffer from outdated generators and a lack of fine-grained annotations. In this paper, we introduce SynthScars, a high-quality and diverse dataset consisting of 12,236 fully synthetic images with human-expert annotations. It features 4 distinct image content types, 3 categories of artifacts, and fine-grained annotations covering pixel-level segmentation, detailed textual explanations, and artifact category labels. Furthermore, we propose LEGION (LEarning to Ground and explain for Synthetic Image detectiON), a multimodal large language model (MLLM)-based image forgery analysis framework that integrates artifact detection, segmentation, and explanation. Building upon this capability, we further explore LEGION as a controller, integrating it into image refinement pipelines to guide the generation of higher-quality and more realistic images. Extensive experiments show that LEGION outperforms existing methods across multiple benchmarks, particularly surpassing the second-best traditional expert on SynthScars by 3.31% in mIoU and 7.75% in F1 score. Moreover, the refined images generated under its guidance exhibit stronger alignment with human preferences. The code, model, and dataset will be released.

arxiv情報

著者 Hengrui Kang,Siwei Wen,Zichen Wen,Junyan Ye,Weijia Li,Peilin Feng,Baichuan Zhou,Bin Wang,Dahua Lin,Linfeng Zhang,Conghui He
発行日 2025-03-19 14:37:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LEGION: Learning to Ground and Explain for Synthetic Image Detection はコメントを受け付けていません

DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning

要約

三角メッシュは、効率的な操作とレンダリングのために、3Dアプリケーションで重要な役割を果たします。
自動再帰的方法は、離散頂点トークンを予測することにより構造化されたメッシュを生成しますが、しばしば、限られた顔数とメッシュの不完全性によって制約されます。
これらの課題に対処するために、2つの重要なイノベーションを通じてメッシュ生成を最適化するフレームワークであるDeepMeshを提案します。(1)データキュレーションと処理の改善と(2)補強学習(RL)の導入(RL)が3D Mesh世代への導入(DPO)を介して人間のプレイヤー化を達成するための導入(DPO)を達成することを提案します。
人間の評価と3Dメトリックを組み合わせてDPOの優先ペアを収集するスコアリング基準を設計し、視覚的魅力と幾何学的精度の両方を確保します。
ポイントクラウドと画像に条件付けられたDeepMeshは、複雑な詳細と正確なトポロジを備えたメッシュを生成し、精度と品質の両方で最先端の方法を上回ります。
プロジェクトページ:https://zhaorw02.github.io/deepmesh/

要約(オリジナル)

Triangle meshes play a crucial role in 3D applications for efficient manipulation and rendering. While auto-regressive methods generate structured meshes by predicting discrete vertex tokens, they are often constrained by limited face counts and mesh incompleteness. To address these challenges, we propose DeepMesh, a framework that optimizes mesh generation through two key innovations: (1) an efficient pre-training strategy incorporating a novel tokenization algorithm, along with improvements in data curation and processing, and (2) the introduction of Reinforcement Learning (RL) into 3D mesh generation to achieve human preference alignment via Direct Preference Optimization (DPO). We design a scoring standard that combines human evaluation with 3D metrics to collect preference pairs for DPO, ensuring both visual appeal and geometric accuracy. Conditioned on point clouds and images, DeepMesh generates meshes with intricate details and precise topology, outperforming state-of-the-art methods in both precision and quality. Project page: https://zhaorw02.github.io/DeepMesh/

arxiv情報

著者 Ruowen Zhao,Junliang Ye,Zhengyi Wang,Guangce Liu,Yiwen Chen,Yikai Wang,Jun Zhu
発行日 2025-03-19 14:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning はコメントを受け付けていません

Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling

要約

この論文では、ユーザーの指示に従って画像が合成される条件付き画像生成のタスクに焦点を当てています。
このタスクを支える重要な課題は、生成された画像の忠実度と、提供された条件とのセマンティックアライメントの両方を確保することです。
この問題に取り組むために、以前の研究では、事前に訓練されたモデルから派生した監督された知覚損失、つまり報酬モデルを採用して、条件と生成された結果の間の調整を実施しています。
ただし、1つの固有の欠点が観察されます。合成画像の多様性を考慮すると、報酬モデルは通常、トレーニングプロセスを損なう可能性のある新しく生成されたデータに遭遇したときに不正確なフィードバックを提供します。
この制限に対処するために、CTRL-Uと呼ばれる不確実な報酬モデリングを提案します。これには、不確実性の推定と不確実性を意識した正規化を含み、報酬モデルからの不正確なフィードバックの悪影響を減らすように設計されています。
報酬モデル内の固有の認知的不確実性を考えると、同一の条件下で生成された画像でさえ、報酬の損失に比較的大きな矛盾をもたらすことがよくあります。
観察に触発されて、私たちはそのような予測の差異を不確実性指標として明示的に活用します。
不確実性の推定に基づいて、報酬を適応的に修正することにより、モデルトレーニングを正規化します。
特に、不確実性が低い報酬は、より高い損失の重みを受け取りますが、不確実性が高い人は、より大きな変動を可能にするために減少した重みを与えられます。
提案された不確実性の正則化は、一貫性の構築を通じて報酬の微調整を促進します。
広範な実験では、制御性と生成の品質を改善するための方法論の有効性、および多様な条件付きシナリオ全体のスケーラビリティを検証します。
コードはhttps://grenoble-zhang.github.io/ctrl-u-page/で公開されています。

要約(オリジナル)

In this paper, we focus on the task of conditional image generation, where an image is synthesized according to user instructions. The critical challenge underpinning this task is ensuring both the fidelity of the generated images and their semantic alignment with the provided conditions. To tackle this issue, previous studies have employed supervised perceptual losses derived from pre-trained models, i.e., reward models, to enforce alignment between the condition and the generated result. However, we observe one inherent shortcoming: considering the diversity of synthesized images, the reward model usually provides inaccurate feedback when encountering newly generated data, which can undermine the training process. To address this limitation, we propose an uncertainty-aware reward modeling, called Ctrl-U, including uncertainty estimation and uncertainty-aware regularization, designed to reduce the adverse effects of imprecise feedback from the reward model. Given the inherent cognitive uncertainty within reward models, even images generated under identical conditions often result in a relatively large discrepancy in reward loss. Inspired by the observation, we explicitly leverage such prediction variance as an uncertainty indicator. Based on the uncertainty estimation, we regularize the model training by adaptively rectifying the reward. In particular, rewards with lower uncertainty receive higher loss weights, while those with higher uncertainty are given reduced weights to allow for larger variability. The proposed uncertainty regularization facilitates reward fine-tuning through consistency construction. Extensive experiments validate the effectiveness of our methodology in improving the controllability and generation quality, as well as its scalability across diverse conditional scenarios. Codes are publicly available at https://grenoble-zhang.github.io/Ctrl-U-Page/.

arxiv情報

著者 Guiyu Zhang,Huan-ang Gao,Zijian Jiang,Hao Zhao,Zhedong Zheng
発行日 2025-03-19 14:41:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling はコメントを受け付けていません

On the Fourier analysis in the SO(3) space : EquiLoPO Network

要約

回転不変性または同等性による体積データの分析は、現在の研究では積極的なトピックです。
既存のディープラーニングアプローチでは、個別の回転に限定されたグループの畳み込みネットワークまたは制限されたフィルター構造を備えた操縦可能な畳み込みネットワークに限定されています。
この作業では、制約のないトレーニング可能なフィルター – Equilopoネットワークを許可しながら、連続SO(3)グループのローカルパターン方向への分析的等語を達成する新しい等量性ニューラルネットワークアーキテクチャを提案します。
私たちの主要な革新は、フーリエ基底としての還元可能な表現を活用するグループの畳み込み操作と、入力関数から出力関数への明確に定義されたマッピングを提供するSO(3)空間の局所的な活性化関数です。
これらの操作をResNetスタイルのアーキテクチャに統合することにより、以前の方法の制限を克服するモデルを提案します。
MedMnist3Dからの多様な3D医療イメージングデータセットに関する包括的な評価は、私たちのアプローチの有効性を示しており、これは一貫して最先端を上回ります。
この作業は、SO(3)と局所的なアクティベーション関数によって有効になった柔軟な制約のないフィルターに対する真の回転等量の利点を示唆しており、ドメイン全体の潜在的なアプリケーションを備えたボリューム測定データの等量学習のための柔軟なフレームワークを提供します。
私たちのコードは、https://gricad-gitlab.univ-grenoble-alpes.fr/grulab/ilpo/-/tree/main/equilopoで公開されています。

要約(オリジナル)

Analyzing volumetric data with rotational invariance or equivariance is an active topic in current research. Existing deep-learning approaches utilize either group convolutional networks limited to discrete rotations or steerable convolutional networks with constrained filter structures. This work proposes a novel equivariant neural network architecture that achieves analytical Equivariance to Local Pattern Orientation on the continuous SO(3) group while allowing unconstrained trainable filters – EquiLoPO Network. Our key innovations are a group convolutional operation leveraging irreducible representations as the Fourier basis and a local activation function in the SO(3) space that provides a well-defined mapping from input to output functions, preserving equivariance. By integrating these operations into a ResNet-style architecture, we propose a model that overcomes the limitations of prior methods. A comprehensive evaluation on diverse 3D medical imaging datasets from MedMNIST3D demonstrates the effectiveness of our approach, which consistently outperforms state of the art. This work suggests the benefits of true rotational equivariance on SO(3) and flexible unconstrained filters enabled by the local activation function, providing a flexible framework for equivariant deep learning on volumetric data with potential applications across domains. Our code is publicly available at https://gricad-gitlab.univ-grenoble-alpes.fr/GruLab/ILPO/-/tree/main/EquiLoPO.

arxiv情報

著者 Dmitrii Zhemchuzhnikov,Sergei Grudinin
発行日 2025-03-19 14:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, math.GR | On the Fourier analysis in the SO(3) space : EquiLoPO Network はコメントを受け付けていません