TomoSelfDEQ: Self-Supervised Deep Equilibrium Learning for Sparse-Angle CT Reconstruction

要約

ディープラーニングは、コンピューター断層撮影(CT)を含む、イメージングで逆問題を解決するための強力なツールとして浮上しています。
ただし、ほとんどのアプローチでは、グラウンドトゥルースイメージを持つペアのトレーニングデータが必要です。これは、医療用途などで取得するのが難しい場合があります。
アンダーサンプリングされた測定で直接訓練するスパースアングルCT再構成のための自己監視された深部平衡(DEQ)フレームワークであるTomoselfdeqを提示します。
私たちは、適切な仮定の下で、私たちの自己監視されたアップデートが完全に監視されたトレーニングのアップデートと、CTフォワードマップのような(おそらく非統一的な)フォワードオペレーターを含む損失と一致することを示す理論的保証を確立します。
スパースアングルCTデータの数値実験では、この発見が確認され、Tomoselfdeqが既存の自己監視方法を上回り、わずか16の投影角で最新の結果を達成することも実証しています。

要約(オリジナル)

Deep learning has emerged as a powerful tool for solving inverse problems in imaging, including computed tomography (CT). However, most approaches require paired training data with ground truth images, which can be difficult to obtain, e.g., in medical applications. We present TomoSelfDEQ, a self-supervised Deep Equilibrium (DEQ) framework for sparse-angle CT reconstruction that trains directly on undersampled measurements. We establish theoretical guarantees showing that, under suitable assumptions, our self-supervised updates match those of fully-supervised training with a loss including the (possibly non-unitary) forward operator like the CT forward map. Numerical experiments on sparse-angle CT data confirm this finding, also demonstrating that TomoSelfDEQ outperforms existing self-supervised methods, achieving state-of-the-art results with as few as 16 projection angles.

arxiv情報

著者 Tatiana A. Bubba,Matteo Santacesaria,Andrea Sebastiani
発行日 2025-02-28 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | TomoSelfDEQ: Self-Supervised Deep Equilibrium Learning for Sparse-Angle CT Reconstruction はコメントを受け付けていません

LLM Post-Training: A Deep Dive into Reasoning Large Language Models

要約

大規模な言語モデル(LLM)は、自然言語処理環境を変え、多様なアプリケーションを実現しました。
膨大なウェブスケールのデータを事前に削除して、これらのモデルの基盤が築かれていますが、研究コミュニティは、さらなるブレークスルーを達成するために、トレーニング後のテクニックにますます焦点を移しています。
事前トレーニングは幅広い言語基盤を提供しますが、トレーニング後の方法により、LLMは知識を改善し、推論を改善し、事実上の正確性を高め、ユーザーの意図と倫理的考慮事項とより効果的に調整できます。
微調整、強化学習、およびテスト時間スケーリングは、LLMSパフォーマンスを最適化し、堅牢性を確保し、さまざまな現実世界のタスクにわたる適応性を改善するための重要な戦略として浮上しています。
この調査では、トレーニング後の方法論の体系的な調査を提供し、壊滅的な忘却、報酬のハッキング、推論時間のトレードオフなどの重要な課題に対処することを超えて、LLMを改良する役割を分析します。
モデルアライメント、スケーラブルな適応、および推論時間推論における新しい方向性を強調し、将来の研究方向の概要を説明します。
また、この急速に進化する分野の開発を継続的に追跡するためのパブリックリポジトリを提供します:https://github.com/mbzuai-oryx/awesome-llm-post-training。

要約(オリジナル)

Large Language Models (LLMs) have transformed the natural language processing landscape and brought to life diverse applications. Pretraining on vast web-scale data has laid the foundation for these models, yet the research community is now increasingly shifting focus toward post-training techniques to achieve further breakthroughs. While pretraining provides a broad linguistic foundation, post-training methods enable LLMs to refine their knowledge, improve reasoning, enhance factual accuracy, and align more effectively with user intents and ethical considerations. Fine-tuning, reinforcement learning, and test-time scaling have emerged as critical strategies for optimizing LLMs performance, ensuring robustness, and improving adaptability across various real-world tasks. This survey provides a systematic exploration of post-training methodologies, analyzing their role in refining LLMs beyond pretraining, addressing key challenges such as catastrophic forgetting, reward hacking, and inference-time trade-offs. We highlight emerging directions in model alignment, scalable adaptation, and inference-time reasoning, and outline future research directions. We also provide a public repository to continually track developments in this fast-evolving field: https://github.com/mbzuai-oryx/Awesome-LLM-Post-training.

arxiv情報

著者 Komal Kumar,Tajamul Ashraf,Omkar Thawakar,Rao Muhammad Anwer,Hisham Cholakkal,Mubarak Shah,Ming-Hsuan Yang,Phillip H. S. Torr,Salman Khan,Fahad Shahbaz Khan
発行日 2025-02-28 18:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | LLM Post-Training: A Deep Dive into Reasoning Large Language Models はコメントを受け付けていません

Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference

要約

私たちは、次の迅速な指定ルールから大規模な言語モデル(LLMS)を破壊する方法を研究します。
最初に、ルールフォローを命題ホーンロジックの推論として形式化します。これは、いくつかの提案$ p $、$ q $、および$ r $の場合、ルールが「$ p $ and $ q $の場合、$ r $」という形式を持つ数学システムです。
次に、小さな変圧器はそのようなルールに忠実に従うことができますが、悪意のある作られたプロンプトは、理論的構成とデータから学んだモデルの両方を誤解させる可能性があることを証明します。
さらに、LLMの一般的な攻撃アルゴリズムが敵対的なプロンプトを見つけ、理論と一致する注意パターンを誘導することを実証します。
私たちの新しい論理ベースのフレームワークは、ルールベースの設定でLLMを研究するための基盤を提供し、論理的推論や脱獄攻撃などのタスクの正式な分析を可能にします。

要約(オリジナル)

We study how to subvert large language models (LLMs) from following prompt-specified rules. We first formalize rule-following as inference in propositional Horn logic, a mathematical system in which rules have the form ‘if $P$ and $Q$, then $R$’ for some propositions $P$, $Q$, and $R$. Next, we prove that although small transformers can faithfully follow such rules, maliciously crafted prompts can still mislead both theoretical constructions and models learned from data. Furthermore, we demonstrate that popular attack algorithms on LLMs find adversarial prompts and induce attention patterns that align with our theory. Our novel logic-based framework provides a foundation for studying LLMs in rule-based settings, enabling a formal analysis of tasks like logical reasoning and jailbreak attacks.

arxiv情報

著者 Anton Xue,Avishree Khare,Rajeev Alur,Surbhi Goel,Eric Wong
発行日 2025-02-28 17:50:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference はコメントを受け付けていません

ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model

要約

音声駆動型の3Dフェイシャルアニメーションは、任意のオーディオクリップから3Dヘッドモデルの現実的な唇の動きと表情を生成することを目的としています。
既存の拡散ベースの方法は自然な動きを生成することができますが、その遅い発電速度はアプリケーションの可能性を制限します。
このペーパーでは、スピーチからマルチスケールモーションコードブックまでのマッピングを学習することにより、非常に同期したリップの動きとリアルなヘッドポーズと目の瞬きをリアルタイムで生成する新しい自己回帰モデルを紹介します。
さらに、私たちのモデルは、サンプルモーションシーケンスを使用して目に見えないスピーキングスタイルに適応し、トレーニング中に見られるアイデンティティを超えたユニークな個人スタイルを持つ3Dトーキングアバターの作成を可能にします。
広範な評価とユーザー研究は、私たちの方法が、唇の同期の精度と知覚品質の既存のアプローチよりも優れていることを示しています。

要約(オリジナル)

Speech-driven 3D facial animation aims to generate realistic lip movements and facial expressions for 3D head models from arbitrary audio clips. Although existing diffusion-based methods are capable of producing natural motions, their slow generation speed limits their application potential. In this paper, we introduce a novel autoregressive model that achieves real-time generation of highly synchronized lip movements and realistic head poses and eye blinks by learning a mapping from speech to a multi-scale motion codebook. Furthermore, our model can adapt to unseen speaking styles using sample motion sequences, enabling the creation of 3D talking avatars with unique personal styles beyond the identities seen during training. Extensive evaluations and user studies demonstrate that our method outperforms existing approaches in lip synchronization accuracy and perceived quality.

arxiv情報

著者 Xuangeng Chu,Nabarun Goswami,Ziteng Cui,Hanqin Wang,Tatsuya Harada
発行日 2025-02-28 13:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model はコメントを受け付けていません

FuseGrasp: Radar-Camera Fusion for Robotic Grasping of Transparent Objects

要約

透明なオブジェクトは日常の環境で一般的ですが、それらの明確な物理的特性は、カメラ誘導ロボットアームに大きな課題をもたらします。
現在の研究は、主にカメラのみのアプローチに依存しており、低光環境などの最適ではない状態でしばしば動きます。
この課題に応えて、透明なオブジェクトの操作を強化するように調整された最初のレーダーカメラ融合システムであるFuseGraspを提示します。
Fusegraspは、透明な材料を不透明にし、ロボットアームの正確なモーション制御と組み合わせて、透明オブジェクトの高品質のMMWaveレーダー画像を取得するため、透明な材料を不透明にします。
このシステムは、慎重に設計されたディープニューラルネットワークを採用してレーダーとカメラの画像を融合し、深さの完了を改善し、オブジェクトの成功率を把握します。
それにもかかわらず、透明なオブジェクトのレーダー画像データセットが限られているため、ヒューズグラスを効果的にトレーニングすることは、事実上ではありません。
大規模なRGB-Dデータセットを利用してこの問題に対処し、効果的な2段階のトレーニングアプローチを提案します。最初に透明オブジェクトの大規模なRGB-Dデータセットで排気前のFuseGraspを前に微調整してから、自己構築された小さなRGB-D-RADARデータセットで微調整します。
さらに、副産物として、FuseGraspは、ガラスやプラスチックなどの透明なオブジェクトの組成を決定し、MMWaveレーダーの材料識別能力を活用します。
この識別結果は、グリップ力を適切に調節する際にロボットアームを容易にします。
広範なテストにより、FuseGraspは、透明オブジェクトの深さ再構成と材料識別の精度を大幅に改善することが明らかになりました。
さらに、実際のロボット試験により、FuseGraspは透明アイテムの取り扱いを著しく強化することが確認されています。
FuseGraspのビデオデモは、https://youtu.be/mwdqv0srsokで入手できます。

要約(オリジナル)

Transparent objects are prevalent in everyday environments, but their distinct physical properties pose significant challenges for camera-guided robotic arms. Current research is mainly dependent on camera-only approaches, which often falter in suboptimal conditions, such as low-light environments. In response to this challenge, we present FuseGrasp, the first radar-camera fusion system tailored to enhance the transparent objects manipulation. FuseGrasp exploits the weak penetrating property of millimeter-wave (mmWave) signals, which causes transparent materials to appear opaque, and combines it with the precise motion control of a robotic arm to acquire high-quality mmWave radar images of transparent objects. The system employs a carefully designed deep neural network to fuse radar and camera imagery, thereby improving depth completion and elevating the success rate of object grasping. Nevertheless, training FuseGrasp effectively is non-trivial, due to limited radar image datasets for transparent objects. We address this issue utilizing large RGB-D dataset, and propose an effective two-stage training approach: we first pre-train FuseGrasp on a large public RGB-D dataset of transparent objects, then fine-tune it on a self-built small RGB-D-Radar dataset. Furthermore, as a byproduct, FuseGrasp can determine the composition of transparent objects, such as glass or plastic, leveraging the material identification capability of mmWave radar. This identification result facilitates the robotic arm in modulating its grip force appropriately. Extensive testing reveals that FuseGrasp significantly improves the accuracy of depth reconstruction and material identification for transparent objects. Moreover, real-world robotic trials have confirmed that FuseGrasp markedly enhances the handling of transparent items. A video demonstration of FuseGrasp is available at https://youtu.be/MWDqv0sRSok.

arxiv情報

著者 Hongyu Deng,Tianfan Xue,He Chen
発行日 2025-02-28 08:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FuseGrasp: Radar-Camera Fusion for Robotic Grasping of Transparent Objects はコメントを受け付けていません

HiFAR: Multi-Stage Curriculum Learning for High-Dynamics Humanoid Fall Recovery

要約

ヒューマノイドロボットは、特に動的および非構造化されていない環境内で、滝から自律的に回復するのにかなりの困難に遭遇します。
従来の制御方法論は、高次元のダイナミクスに関連する複雑さと、秋の回復の接触が豊富な性質に対処するには不十分なことがよくあります。
一方、強化学習手法は、まばらな報酬、複雑な衝突シナリオ、およびシミュレーションと現実世界のアプリケーションの間の矛盾に関連する問題によって妨げられています。
この研究では、Hifarと呼ばれるマルチステージカリキュラム学習フレームワークを紹介します。
このフレームワークは、ますます複雑で高次元の回復タスクを徐々に組み込んだ段階的な学習アプローチを採用しており、それにより、ロボットが効率的で安定した転倒回復戦略の獲得を促進します。
さらに、ロボットは、現実世界の秋のインシデントを効果的に管理するためにポリシーを適応させることができます。
実際のヒューマノイドロボットを使用して提案された方法の有効性を評価し、高い成功率、迅速な回復時間、堅牢性、一般化を伴う多様な転倒から自律的に回復する能力を示します。

要約(オリジナル)

Humanoid robots encounter considerable difficulties in autonomously recovering from falls, especially within dynamic and unstructured environments. Conventional control methodologies are often inadequate in addressing the complexities associated with high-dimensional dynamics and the contact-rich nature of fall recovery. Meanwhile, reinforcement learning techniques are hindered by issues related to sparse rewards, intricate collision scenarios, and discrepancies between simulation and real-world applications. In this study, we introduce a multi-stage curriculum learning framework, termed HiFAR. This framework employs a staged learning approach that progressively incorporates increasingly complex and high-dimensional recovery tasks, thereby facilitating the robot’s acquisition of efficient and stable fall recovery strategies. Furthermore, it enables the robot to adapt its policy to effectively manage real-world fall incidents. We assess the efficacy of the proposed method using a real humanoid robot, showcasing its capability to autonomously recover from a diverse range of falls with high success rates, rapid recovery times, robustness, and generalization.

arxiv情報

著者 Penghui Chen,Yushi Wang,Changsheng Luo,Wenhan Cai,Mingguo Zhao
発行日 2025-02-28 07:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HiFAR: Multi-Stage Curriculum Learning for High-Dynamics Humanoid Fall Recovery はコメントを受け付けていません

Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets

要約

コード関連のタスクに大規模な言語モデル(LLM)を採用することは、トレーニングデータセットのセキュリティに関する懸念を提起しました。
重要な脅威の1つは、モデルの動作を操作するためのトレーニングデータに構文的に有効だが機能的に冗長コードが注入されているデッドコード中毒です。
このような攻撃は、ニューラルコード検索システムのパフォーマンスを低下させ、偏ったコードの提案または不安定なコードの提案につながる可能性があります。
トークンレベルの困惑分析などの既存の検出方法は、プログラミング言語の構造的およびコンテキスト特性により、死んだコードを効果的に特定できません。
この論文では、コードの構造特性に合わせた新しいラインレベルの検出およびクレンジング方法であるDEPA(Dead Code Perplexity Analysis)を提案します。
DEPAは、コード行間のコンテキスト関係を活用することにより、ラインレベルの困惑を計算し、ファイル内の全体的な分布と困惑を比較することにより、異常な行を識別します。
ベンチマークデータセットでの実験は、DEPAが既存の方法を大幅に上回り、検出F1スコアの0.14-0.19の改善を達成し、中毒セグメント局在精度の44-65%の増加を達成することを示しています。
さらに、DEPAは検出速度を0.62〜23倍に強化し、大規模なデータセットクレンジングに実用的です。
全体として、DEPAは、死んだコード中毒の独自の課題に対処することにより、コード生成モデルトレーニングデータセットの整合性を保護するための堅牢で効率的なソリューションを提供します。

要約(オリジナル)

The increasing adoption of large language models (LLMs) for code-related tasks has raised concerns about the security of their training datasets. One critical threat is dead code poisoning, where syntactically valid but functionally redundant code is injected into training data to manipulate model behavior. Such attacks can degrade the performance of neural code search systems, leading to biased or insecure code suggestions. Existing detection methods, such as token-level perplexity analysis, fail to effectively identify dead code due to the structural and contextual characteristics of programming languages. In this paper, we propose DePA (Dead Code Perplexity Analysis), a novel line-level detection and cleansing method tailored to the structural properties of code. DePA computes line-level perplexity by leveraging the contextual relationships between code lines and identifies anomalous lines by comparing their perplexity to the overall distribution within the file. Our experiments on benchmark datasets demonstrate that DePA significantly outperforms existing methods, achieving 0.14-0.19 improvement in detection F1-score and a 44-65% increase in poisoned segment localization precision. Furthermore, DePA enhances detection speed by 0.62-23x, making it practical for large-scale dataset cleansing. Overall, by addressing the unique challenges of dead code poisoning, DePA provides a robust and efficient solution for safeguarding the integrity of code generation model training datasets.

arxiv情報

著者 Chi-Chien Tsai,Chia-Mu Yu,Ying-Dar Lin,Yu-Sung Wu,Wei-Bin Lee
発行日 2025-02-28 08:39:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets はコメントを受け付けていません

Preconditioned Score-based Generative Models

要約

スコアベースの生成モデル(SGM)は、最近、有望なクラスの生成モデルとして浮上しています。
ただし、基本的な制限は、多くの(たとえば、2000年)順次計算の反復が必要なため、サンプリングプロセスが遅いことです。
直感的な加速方法は、サンプリングの反復を減らすことであり、これにより、パフォーマンスの重度の劣化を引き起こすことがあります。
私たちは、この問題を、ランジュバンのダイナミクスの条件の不条理な問題とサンプリングプロセスにおける逆拡散に暴行します。
この洞察の下で、前述の問題を軽減するためにマトリックスの前処理を活用する新しい前処理拡散サンプリング(PDS)メソッドを提案します。
PDSは、バニラSGMのサンプリングプロセスを、わずかな追加の計算コストでモデル再訓練なしで変化させます。
理論的には、PDSがSGMの出力分布を保存することを証明し、元のサンプリングプロセスに体系的なバイアスを誘導するリスクはありません。
さらに理論的には、PDSのパラメーターとサンプリング反復との関係を明らかにし、さまざまなサンプリング反復の下でパラメーター推定を緩和します。
さまざまな解像度と多様性を備えたさまざまな画像データセットでの広範な実験では、PDが合成品質を維持しながら、既製のSGMSを一貫して加速することを検証します。
特に、PDは、より困難な高解像度(1024×1024)の画像生成で最大28倍まで加速できます。
最新の生成モデル(CLD-SGMや分析DDIMなど)と比較して、PDSはFIDスコア1.99でCIFAR-10で最高のサンプリング品質を達成できます。
私たちのコードは、さらなる調査https://github.com/fudan-zvg/pdsを促進するために公開されています。

要約(オリジナル)

Score-based generative models (SGMs) have recently emerged as a promising class of generative models. However, a fundamental limitation is that their sampling process is slow due to a need for many (e.g., 2000) iterations of sequential computations. An intuitive acceleration method is to reduce the sampling iterations which however causes severe performance degradation. We assault this problem to the ill-conditioned issues of the Langevin dynamics and reverse diffusion in the sampling process. Under this insight, we propose a novel preconditioned diffusion sampling (PDS) method that leverages matrix preconditioning to alleviate the aforementioned problem. PDS alters the sampling process of a vanilla SGM at marginal extra computation cost and without model retraining. Theoretically, we prove that PDS preserves the output distribution of the SGM, with no risk of inducing systematical bias to the original sampling process. We further theoretically reveal a relation between the parameter of PDS and the sampling iterations, easing the parameter estimation under varying sampling iterations. Extensive experiments on various image datasets with a variety of resolutions and diversity validate that our PDS consistently accelerates off-the-shelf SGMs whilst maintaining the synthesis quality. In particular, PDS can accelerate by up to 28x on more challenging high-resolution (1024×1024) image generation. Compared with the latest generative models (e.g., CLD-SGM and Analytic-DDIM), PDS can achieve the best sampling quality on CIFAR-10 at an FID score of 1.99. Our code is publicly available to foster any further research https://github.com/fudan-zvg/PDS.

arxiv情報

著者 Hengyuan Ma,Xiatian Zhu,Jianfeng Feng,Li Zhang
発行日 2025-02-28 07:35:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Preconditioned Score-based Generative Models はコメントを受け付けていません

Dreamweaver: Learning Compositional World Models from Pixels

要約

人間は、世界の認識をオブジェクトと、色、形状、運動パターンなどの属性に分解する生来の能力を持っています。
この認知プロセスにより、おなじみの概念を組み立てることにより、新しい未来を想像することができます。
ただし、人工知能システムでこの能力を複製することは、特に動画を構成概念にモデル化し、テキスト、マスク、境界ボックスなどの補助データに依存することなく、目に見えない再構築を生成する場合に挑戦的であることが証明されています。
この論文では、生ビデオから階層的および構成的表現を発見し、構成の将来のシミュレーションを生成するために設計された神経アーキテクチャであるDreamWeaverを提案します。
私たちのアプローチは、新しい再発ブロックスロットユニット(RBSU)を活用して、構成要素オブジェクトと属性にビデオを分解します。
さらに、DreamWeaverは、マルチフューチャーフレーム予測の目的を使用して、動的概念の解きだれの表現をより効果的にキャプチャし、静的概念をキャプチャします。
実験では、複数のデータセットにわたってDCIフレームワークの下で評価された場合、モデルが世界モデリングの最新のベースラインを上回ることを実証します。
さらに、モデルのモジュール化された概念表現が構成想像力をどのように可能にし、以前に見たオブジェクトから属性を組換えることにより、新しいビデオの生成を可能にする方法を示します。
cun-bjy.github.io/dreamweaver-website

要約(オリジナル)

Humans have an innate ability to decompose their perceptions of the world into objects and their attributes, such as colors, shapes, and movement patterns. This cognitive process enables us to imagine novel futures by recombining familiar concepts. However, replicating this ability in artificial intelligence systems has proven challenging, particularly when it comes to modeling videos into compositional concepts and generating unseen, recomposed futures without relying on auxiliary data, such as text, masks, or bounding boxes. In this paper, we propose Dreamweaver, a neural architecture designed to discover hierarchical and compositional representations from raw videos and generate compositional future simulations. Our approach leverages a novel Recurrent Block-Slot Unit (RBSU) to decompose videos into their constituent objects and attributes. In addition, Dreamweaver uses a multi-future-frame prediction objective to capture disentangled representations for dynamic concepts more effectively as well as static concepts. In experiments, we demonstrate our model outperforms current state-of-the-art baselines for world modeling when evaluated under the DCI framework across multiple datasets. Furthermore, we show how the modularized concept representations of our model enable compositional imagination, allowing the generation of novel videos by recombining attributes from previously seen objects. cun-bjy.github.io/dreamweaver-website

arxiv情報

著者 Junyeob Baek,Yi-Fu Wu,Gautam Singh,Sungjin Ahn
発行日 2025-02-28 08:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Dreamweaver: Learning Compositional World Models from Pixels はコメントを受け付けていません

HVI: A New Color Space for Low-light Image Enhancement

要約

Low-light Image Enhancement(LLIE)は、破損した低光度画像から詳細な視覚情報を復元することを目的とする重要なコンピュータービジョンタスクです。
多くの既存のLLIEメソッドは、標準のRGB(SRGB)空間に基づいています。これは、SRGBの固有の高い色感度のために色バイアスと輝度アーティファクトを生成することがよくあります。
色相を使用して画像を変換すると、飽和と値(HSV)の色空間が輝度の問題を解決するのに役立ちますが、かなりの赤と黒のノイズアーティファクトを導入します。
この問題に対処するために、偏光HSマップと学習可能な強度で定義されたLlieの新しい色空間、すなわち水平/垂直強度(HVI)を提案します。
前者は赤い座標のわずかな距離を強制して赤いアーティファクトを除去し、後者は低光領域を圧縮して黒いアーティファクトを除去します。
色と強度の情報を完全に活用するために、HVI空間のさまざまな照明条件下で正確な測光マッピング機能を学習するために、新しい色と強度分離ネットワーク(CIDNET)がさらに導入されます。
ベンチマークとアブレーション実験の包括的な結果は、CIDNETを備えた提案されたHVIカラー空間が10のデータセットの最先端の方法を上回ることを示しています。
このコードは、https://github.com/fediory/hvi-cidnetで入手できます。

要約(オリジナル)

Low-Light Image Enhancement (LLIE) is a crucial computer vision task that aims to restore detailed visual information from corrupted low-light images. Many existing LLIE methods are based on standard RGB (sRGB) space, which often produce color bias and brightness artifacts due to inherent high color sensitivity in sRGB. While converting the images using Hue, Saturation and Value (HSV) color space helps resolve the brightness issue, it introduces significant red and black noise artifacts. To address this issue, we propose a new color space for LLIE, namely Horizontal/Vertical-Intensity (HVI), defined by polarized HS maps and learnable intensity. The former enforces small distances for red coordinates to remove the red artifacts, while the latter compresses the low-light regions to remove the black artifacts. To fully leverage the chromatic and intensity information, a novel Color and Intensity Decoupling Network (CIDNet) is further introduced to learn accurate photometric mapping function under different lighting conditions in the HVI space. Comprehensive results from benchmark and ablation experiments show that the proposed HVI color space with CIDNet outperforms the state-of-the-art methods on 10 datasets. The code is available at https://github.com/Fediory/HVI-CIDNet.

arxiv情報

著者 Qingsen Yan,Yixu Feng,Cheng Zhang,Guansong Pang,Kangbiao Shi,Peng Wu,Wei Dong,Jinqiu Sun,Yanning Zhang
発行日 2025-02-28 11:13:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | HVI: A New Color Space for Low-light Image Enhancement はコメントを受け付けていません