‘Trust me on this’ Explaining Agent Behavior to a Human Terminator

要約

事前に訓練されたエージェントがある環境で動作しており、人間のオペレータがその動作を一時的に終了させ、ある期間引き継ぐことを決定できるような設定を考える。このようなシナリオは、自律走行、ファクトリーオートメーション、ヘルスケアなど、人間と機械の相互作用において一般的である。もしテイクオーバーが許されなければ、エージェントは最適でない、おそらく危険なポリシーを採用するかもしれない。あるいは、テイクオーバーが多すぎる場合、人間はエージェントを信頼できなくなり、その有用性は大きく制限される。本稿では、この設定を定式化し、人間の介入回数を最適化するための説明可能性スキームを提案する。

要約(オリジナル)

Consider a setting where a pre-trained agent is operating in an environment and a human operator can decide to temporarily terminate its operation and take-over for some duration of time. These kind of scenarios are common in human-machine interactions, for example in autonomous driving, factory automation and healthcare. In these settings, we typically observe a trade-off between two extreme cases — if no take-overs are allowed, then the agent might employ a sub-optimal, possibly dangerous policy. Alternatively, if there are too many take-overs, then the human has no confidence in the agent, greatly limiting its usefulness. In this paper, we formalize this setup and propose an explainability scheme to help optimize the number of human interventions.

arxiv情報

著者 Uri Menkes,Assaf Hallak,Ofra Amir
発行日 2025-05-05 17:48:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.HC | ‘Trust me on this’ Explaining Agent Behavior to a Human Terminator はコメントを受け付けていません

Privacy Risks and Preservation Methods in Explainable Artificial Intelligence: A Scoping Review

要約

説明可能な人工知能(XAI)は、信頼できるAIの柱として登場し、本来不透明である複雑なモデルに透明性をもたらすことを目指している。モデルに説明を組み込むことの利点にもかかわらず、この追加情報をエンドユーザーに提供することによるプライバシーの懸念に対処することが急務である。この論文では、プライバシーと説明可能性の間の対立の詳細を引き出すために、既存文献のスコーピングレビューを実施する。スコーピングレビューの標準的な手法を用い、2019年1月から2024年12月までに発表された1,943件の研究から57件の論文を抽出した。このレビューでは、読者にトピックに関するより深い理解を提示するため、3つのリサーチクエスチョンを取り上げている:(1)AIシステムにおいて説明を公開することのプライバシーリスクは何か?(2) XAIシステムにおいてプライバシー保護を実現するために、研究者は現在どのような方法を採用しているか?(3) プライバシーの保護された説明とは何か?選択された研究から統合された知識に基づいて、XAIにおけるプライバシーリスクと保全方法を分類し、プライバシーを遵守するXAIの要件を理解する上で研究者と実務者を支援するために、プライバシーを保全する説明の特徴を提案する。最後に、プライバシーと他のシステム要件とのバランスを取る上での課題を明らかにし、プライバシーを保護するXAIを実現するための提言を行う。このレビューが、プライバシーと説明可能性の複雑な関係に光を当てることを期待している。

要約(オリジナル)

Explainable Artificial Intelligence (XAI) has emerged as a pillar of Trustworthy AI and aims to bring transparency in complex models that are opaque by nature. Despite the benefits of incorporating explanations in models, an urgent need is found in addressing the privacy concerns of providing this additional information to end users. In this article, we conduct a scoping review of existing literature to elicit details on the conflict between privacy and explainability. Using the standard methodology for scoping review, we extracted 57 articles from 1,943 studies published from January 2019 to December 2024. The review addresses 3 research questions to present readers with more understanding of the topic: (1) what are the privacy risks of releasing explanations in AI systems? (2) what current methods have researchers employed to achieve privacy preservation in XAI systems? (3) what constitutes a privacy preserving explanation? Based on the knowledge synthesized from the selected studies, we categorize the privacy risks and preservation methods in XAI and propose the characteristics of privacy preserving explanations to aid researchers and practitioners in understanding the requirements of XAI that is privacy compliant. Lastly, we identify the challenges in balancing privacy with other system desiderata and provide recommendations for achieving privacy preserving XAI. We expect that this review will shed light on the complex relationship of privacy and explainability, both being the fundamental principles of Trustworthy AI.

arxiv情報

著者 Sonal Allana,Mohan Kankanhalli,Rozita Dara
発行日 2025-05-05 17:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.ET | Privacy Risks and Preservation Methods in Explainable Artificial Intelligence: A Scoping Review はコメントを受け付けていません

Reinforcement Learning and Life Cycle Assessment for a Circular Economy — Towards Progressive Computer Science

要約

本稿の目的は、強化学習の手法を循環型経済におけるライフサイクルアセスメントに利用する可能性について議論し、この方向におけるいくつかの新しいアイデアを提示することである。背景を説明するために、強化学習がコンピュータ・チェス(およびそれ以外)でどのように応用され成功したかを説明する。コンピュータチェスは歴史的に「AIのショウジョウバエ」と呼ばれているように、我々は「回転ビットボード」と呼ばれる盤面表現方法を説明することから始める。本論文の前半では、ビットボード表現の概念と手番生成における(回転)ビットボードの利点について説明する。また、FUSc#(数年前にベルリン工科大学で開発されたC#によるチェスエンジン)における手生成器の具体的な実装について説明する。また、回転2値ニューラルネットワークについても簡単に説明する。 第2部では、コンピュータ・チェスにおける強化学習(およびそれ以降)を扱う。FUSc#が開発された2002年から2008年までの「最先端技術」と、「AlphaZero」に関連する画期的な技術革新を比較することで、過去15年から20年の間にこの分野でなされた進歩を例証する。AlphaZeroで開発されたアイデアの他領域への応用、例えばAlphaFold、AlphaTensor、AlphaGeometry、AlphaProofのような「他のAlpha」についてレビューする。本稿の最後では、経済パラダイムを(絶対的な)持続可能性へと変化させることがコンピュータ科学に関連する課題を提起し、我々が「進歩的なコンピュータ科学」と呼ぶものがどこまで貢献する必要があるかについて議論する。具体的な課題としては、(絶対的)持続可能性のために最適化するためのライフサイクルアセスメントを用いた循環経済における物質ループの閉鎖があり、この方向性についてのいくつかの新しいアイデアを紹介する。

要約(オリジナル)

The aim of this paper is to discuss the potential of using methods from Reinforcement Learning for Life Cycle Assessment in a circular economy, and to present some new ideas in this direction. To give some context, we explain how Reinforcement Learning was successfully applied in computer chess (and beyond). As computer chess was historically called the ‘drosophila of AI’, we start by describing a method for the board representation called ‘rotated bitboards’ that can potentially also be applied in the context of sustainability. In the first part of this paper, the concepts of the bitboard-representation and the advantages of (rotated) bitboards in move generation are explained. In order to illustrate those ideas practice, the concrete implementation of the move-generator in FUSc# (a chess engine developed at FU Berlin in C# some years ago) is described. In addition, rotated binary neural networks are discussed briefly. The second part deals with reinforcement learning in computer chess (and beyond). We exemplify the progress that has been made in this field in the last 15-20 years by comparing the ‘state of the art’ from 2002-2008, when FUSc# was developed, with the ground-breaking innovations connected to ‘AlphaZero’. We review some application of the ideas developed in AlphaZero in other domains, e.g. the ‘other Alphas’ like AlphaFold, AlphaTensor, AlphaGeometry and AlphaProof. In the final part of the paper, we discuss the computer-science related challenges that changing the economic paradigm towards (absolute) sustainability poses and in how far what we call ‘progressive computer science’ needs to contribute. Concrete challenges include the closing of material loops in a circular economy with Life Cycle Assessment in order to optimize for (absolute) sustainability, and we present some new ideas in this direction.

arxiv情報

著者 Johannes Buchner
発行日 2025-05-05 17:53:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY | Reinforcement Learning and Life Cycle Assessment for a Circular Economy — Towards Progressive Computer Science はコメントを受け付けていません

LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery

要約

セグメンテーションモデルは、画像内のオブジェクトの事前定義されたセットを認識することができる。しかし、暗黙的に複数のオブジェクトを参照する複雑なユーザークエリを推論できるモデルは、まだ発展途上である。最近の推論セグメンテーションの進歩–複雑で暗黙的なクエリテキストからセグメンテーションマスクを生成する–は、視覚言語モデルがオープンな領域で動作し、妥当な出力を生成できることを示している。しかし、我々の実験によれば、このようなモデルは複雑なリモートセンシング画像では苦戦する。この研究では、複雑なリモートセンシングシーンを記述し、それに関する質問に答え、興味のあるオブジェクトをセグメント化するために設計された視覚言語モデルであるLISAtを紹介する。LISAtは、9,205枚の画像に27,615のアノテーションを付与した新しい地理空間推論セグメンテーションデータセットGRESと、100万以上の質問と回答のペアを含むマルチモーダル事前学習データセットPreGRESで学習させた。LISAtは、RS-GPT4Vのような既存の地理空間基礎モデルを、リモートセンシング記述タスクにおいて10.04 % (BLEU-4)上回り、推論セグメンテーションタスクにおいて143.36 % (gIoU)上回った。我々のモデル、データセット、コードは https://lisat-bair.github.io/LISAt/ で利用可能です。

要約(オリジナル)

Segmentation models can recognize a pre-defined set of objects in images. However, models that can reason over complex user queries that implicitly refer to multiple objects of interest are still in their infancy. Recent advances in reasoning segmentation–generating segmentation masks from complex, implicit query text–demonstrate that vision-language models can operate across an open domain and produce reasonable outputs. However, our experiments show that such models struggle with complex remote-sensing imagery. In this work, we introduce LISAt, a vision-language model designed to describe complex remote-sensing scenes, answer questions about them, and segment objects of interest. We trained LISAt on a new curated geospatial reasoning-segmentation dataset, GRES, with 27,615 annotations over 9,205 images, and a multimodal pretraining dataset, PreGRES, containing over 1 million question-answer pairs. LISAt outperforms existing geospatial foundation models such as RS-GPT4V by over 10.04 % (BLEU-4) on remote-sensing description tasks, and surpasses state-of-the-art open-domain models on reasoning segmentation tasks by 143.36 % (gIoU). Our model, datasets, and code are available at https://lisat-bair.github.io/LISAt/

arxiv情報

著者 Jerome Quenum,Wen-Han Hsieh,Tsung-Han Wu,Ritwik Gupta,Trevor Darrell,David M. Chan
発行日 2025-05-05 17:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI | LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery はコメントを受け付けていません

Hard-Constrained Neural Networks with Universal Approximation Guarantees

要約

入出力関係の事前知識や仕様を機械学習モデルに組み込むことは、限られたデータからの汎化を強化し、適合した出力を導くことから、大きな注目を集めている。しかし、既存のアプローチのほとんどは、正則化によって違反にペナルティを与えることでソフトな制約を使用しており、セーフティクリティカルなアプリケーションでは必須要件である制約充足の保証を提供していない。一方、ハード制約をニューラルネットワークに課すことは、その表現力を妨げ、性能に悪影響を及ぼす可能性がある。この問題に対処するために、モデル能力を犠牲にすることなく、ハード制約を本質的に満たすニューラルネットワークを構築するための実用的なフレームワークであるHardNetを提案する。推論時にのみ出力を修正するアプローチとは異なり、HardNetはハード制約を保証したエンドツーエンドの学習を可能にし、性能の向上につながる。我々の知る限り、HardNetは1つ以上の入力依存不等式制約を強制する効率的なフォワードパスを持つ最初の手法である。HardNetは、ネットワークの出力に微分可能な閉形式の強制レイヤーを付加することで、標準的なアルゴリズムを用いたネットワークパラメーターの制約のない最適化を可能にする。さらに、HardNetがニューラルネットワークの普遍的な近似能力を保持していることを示す。HardNetの多用途性と有効性を様々なアプリケーションで実証する:区分的制約の学習、最適化ソルバーの学習、セーフティクリティカルなシステムにおける制御ポリシーの最適化、航空機システムの安全な決定ロジックの学習。

要約(オリジナル)

Incorporating prior knowledge or specifications of input-output relationships into machine learning models has gained significant attention, as it enhances generalization from limited data and leads to conforming outputs. However, most existing approaches use soft constraints by penalizing violations through regularization, which offers no guarantee of constraint satisfaction–an essential requirement in safety-critical applications. On the other hand, imposing hard constraints on neural networks may hinder their representational power, adversely affecting performance. To address this, we propose HardNet, a practical framework for constructing neural networks that inherently satisfy hard constraints without sacrificing model capacity. Unlike approaches that modify outputs only at inference time, HardNet enables end-to-end training with hard constraint guarantees, leading to improved performance. To the best of our knowledge, HardNet is the first method with an efficient forward pass to enforce more than one input-dependent inequality constraint. It allows unconstrained optimization of the network parameters using standard algorithms by appending a differentiable closed-form enforcement layer to the network’s output. Furthermore, we show that HardNet retains the universal approximation capabilities of neural networks. We demonstrate the versatility and effectiveness of HardNet across various applications: learning with piecewise constraints, learning optimization solvers, optimizing control policies in safety-critical systems, and learning safe decision logic for aircraft systems.

arxiv情報

著者 Youngjae Min,Navid Azizan
発行日 2025-05-05 17:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML | Hard-Constrained Neural Networks with Universal Approximation Guarantees はコメントを受け付けていません

RobSurv: Vector Quantization-Based Multi-Modal Learning for Robust Cancer Survival Prediction

要約

マルチモーダル医用画像を用いたがん生存予測は、主にディープラーニングモデルがノイズや画像診断センター間のプロトコルのばらつきに対して脆弱であるため、腫瘍学において重大な課題を提示している。現在のアプローチは、不均一なCTやPET画像から一貫性のある特徴を抽出するのに苦労しており、臨床への適用を制限している。我々は、RobSurvを導入することにより、これらの課題に対処する。RobSurvは、回復力のあるマルチモーダル特徴学習のためのベクトル量子化を活用するロバストな深層学習フレームワークである。1つの経路は、連続的な画像特徴を、ノイズに強い表現のために学習された離散コードブックにマッピングし、並列経路は、連続的な特徴処理を通じて、きめ細かな詳細を保持する。この二重表現は、Transformerベースの処理によって大域的な文脈を捉えながら局所的な空間関係を維持する、新しいパッチワイズフュージョンメカニズムによって統合される。3つの多様なデータセット(HECKTOR、H&N1、NSCLC Radiogenomics)にわたる広範な評価において、RobSurvは優れた性能を示し、それぞれ0.771、0.742、0.734の一致指数を達成し、既存の手法を大幅に凌駕した。最も注目すべきは、我々のモデルは厳しいノイズ条件下でも頑健な性能を維持し、ベースライン手法の8~12%に比べ、性能劣化はわずか3.8~4.5%であることである。これらの結果は、異なるがん種や画像診断プロトコールにわたる強力な一般化と相まって、RobSurvが、治療計画と患者のケアを強化することができる、信頼性の高い臨床予後のための有望なソリューションであることを立証している。

要約(オリジナル)

Cancer survival prediction using multi-modal medical imaging presents a critical challenge in oncology, mainly due to the vulnerability of deep learning models to noise and protocol variations across imaging centers. Current approaches struggle to extract consistent features from heterogeneous CT and PET images, limiting their clinical applicability. We address these challenges by introducing RobSurv, a robust deep-learning framework that leverages vector quantization for resilient multi-modal feature learning. The key innovation of our approach lies in its dual-path architecture: one path maps continuous imaging features to learned discrete codebooks for noise-resistant representation, while the parallel path preserves fine-grained details through continuous feature processing. This dual representation is integrated through a novel patch-wise fusion mechanism that maintains local spatial relationships while capturing global context via Transformer-based processing. In extensive evaluations across three diverse datasets (HECKTOR, H\&N1, and NSCLC Radiogenomics), RobSurv demonstrates superior performance, achieving concordance index of 0.771, 0.742, and 0.734 respectively – significantly outperforming existing methods. Most notably, our model maintains robust performance even under severe noise conditions, with performance degradation of only 3.8-4.5\% compared to 8-12\% in baseline methods. These results, combined with strong generalization across different cancer types and imaging protocols, establish RobSurv as a promising solution for reliable clinical prognosis that can enhance treatment planning and patient care.

arxiv情報

著者 Aiman Farooq,Azad Singh,Deepak Mishra,Santanu Chaudhury
発行日 2025-05-05 10:10:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | RobSurv: Vector Quantization-Based Multi-Modal Learning for Robust Cancer Survival Prediction はコメントを受け付けていません

Quaternion Wavelet-Conditioned Diffusion Models for Image Super-Resolution

要約

画像の超解像は、コンピュータビジョンにおける基本的な問題であり、医用画像から衛星解析まで幅広い応用が可能である。低解像度の入力から高解像度の画像を再構成する能力は、物体検出やセグメンテーションといった下流のタスクを強化する上で極めて重要である。ディープラーニングはSRを大幅に進化させたが、きめ細かいディテールとリアルなテクスチャを持つ高品質な再構成を達成することは、特にアップスケーリング係数が高い場合、依然として困難である。拡散モデルを活用した最近のアプローチは有望な結果を示しているが、知覚品質と構造忠実度のバランスを取るのに苦労することが多い。この研究では、新しいクォータニオンウェーブレットと時間認識エンコーダを組み込んだ、クォータニオンウェーブレット前処理フレームワークと潜在拡散モデルを統合した新しいSRフレームワークResQuを紹介する。単に拡散モデル内にウェーブレット変換を適用する先行手法とは異なり、本アプローチは、ノイズ除去の異なる段階で動的に統合される四元数ウェーブレット埋め込みを利用することで、コンディショニングプロセスを強化する。さらに、Stable Diffusionのような基礎モデルの生成的事前分布を活用する。領域固有のデータセットを用いた広範な実験により、本手法が優れたSR結果を達成し、知覚品質や標準的な評価指標において、多くの場合既存のアプローチを凌駕することが実証された。コードは改訂作業後に公開される予定である。

要約(オリジナル)

Image Super-Resolution is a fundamental problem in computer vision with broad applications spacing from medical imaging to satellite analysis. The ability to reconstruct high-resolution images from low-resolution inputs is crucial for enhancing downstream tasks such as object detection and segmentation. While deep learning has significantly advanced SR, achieving high-quality reconstructions with fine-grained details and realistic textures remains challenging, particularly at high upscaling factors. Recent approaches leveraging diffusion models have demonstrated promising results, yet they often struggle to balance perceptual quality with structural fidelity. In this work, we introduce ResQu a novel SR framework that integrates a quaternion wavelet preprocessing framework with latent diffusion models, incorporating a new quaternion wavelet- and time-aware encoder. Unlike prior methods that simply apply wavelet transforms within diffusion models, our approach enhances the conditioning process by exploiting quaternion wavelet embeddings, which are dynamically integrated at different stages of denoising. Furthermore, we also leverage the generative priors of foundation models such as Stable Diffusion. Extensive experiments on domain-specific datasets demonstrate that our method achieves outstanding SR results, outperforming in many cases existing approaches in perceptual quality and standard evaluation metrics. The code will be available after the revision process.

arxiv情報

著者 Luigi Sigillo,Christian Bianchi,Aurelio Uncini,Danilo Comminiello
発行日 2025-05-05 10:20:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Quaternion Wavelet-Conditioned Diffusion Models for Image Super-Resolution はコメントを受け付けていません

Marker-Based Extrinsic Calibration Method for Accurate Multi-Camera 3D Reconstruction

要約

マルチカメラRGB-Dシステムを用いた正確な3D再構成は、撮影されたビュー間の適切な位置合わせを達成するための正確な外部キャリブレーションに決定的に依存している。本論文では、3次元マーカーによって提供される幾何学的制約を活用し、キャリブレーション精度を大幅に向上させる反復外部キャリブレーション手法を紹介する。提案する手法は、クラスタリング、回帰分析、および反復的な再割り当て技術により、マーカー平面を体系的に分割・精緻化し、カメラビュー間のロバストな幾何学的対応を確保する。我々は、栄養治療を受けている患者の身体的進行をモデル化することを目的としたTech4Dietプロジェクトにおいて、制御された環境と実用的な実世界の設定の両方において、本手法を包括的に検証する。実験結果は、アライメントエラーが大幅に減少し、正確で信頼性の高い3D再構成が容易になることを示している。

要約(オリジナル)

Accurate 3D reconstruction using multi-camera RGB-D systems critically depends on precise extrinsic calibration to achieve proper alignment between captured views. In this paper, we introduce an iterative extrinsic calibration method that leverages the geometric constraints provided by a three-dimensional marker to significantly improve calibration accuracy. Our proposed approach systematically segments and refines marker planes through clustering, regression analysis, and iterative reassignment techniques, ensuring robust geometric correspondence across camera views. We validate our method comprehensively in both controlled environments and practical real-world settings within the Tech4Diet project, aimed at modeling the physical progression of patients undergoing nutritional treatments. Experimental results demonstrate substantial reductions in alignment errors, facilitating accurate and reliable 3D reconstructions.

arxiv情報

著者 Nahuel Garcia-D’Urso,Bernabe Sanchez-Sos,Jorge Azorin-Lopez,Andres Fuster-Guillo,Antonio Macia-Lillo,Higinio Mora-Mora
発行日 2025-05-05 10:21:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM | Marker-Based Extrinsic Calibration Method for Accurate Multi-Camera 3D Reconstruction はコメントを受け付けていません

Robust Duality Learning for Unsupervised Visible-Infrared Person Re-Identfication

要約

教師なし可視赤外人物再識別(UVI-ReID)は、コストのかかるアノテーションを行うことなく、異なるモダリティの歩行者画像を検索することを目的としているが、モダリティギャップと監視の欠如による課題に直面している。既存の手法では、クラスタリングによって生成された擬似ラベルを用いた自己学習が採用されることが多いが、これらのラベルが常に正しいことを暗黙の前提としている。しかし実際には、擬似ラベルのノイズが不可避であるため、この仮定は破綻し、モデルの学習を妨げる。これに対処するため、我々は、3つの重要な課題、すなわちノイズのオーバーフィット、エラーの蓄積、ノイズの多いクラスタ対応関係を特徴とする擬似ラベルノイズ(PLN)を明示的に考慮した新しい学習パラダイムを導入する。この目的のために、我々はノイズの多い擬似ラベルの影響を軽減するために、UVI-ReIDのための新しいロバストデュアリティ学習フレームワーク(RoDE)を提案する。第一に、ノイズのオーバーフィッティングに対抗するため、ノイズのあるサンプルを重み付けする一方で、クリーンなサンプルを動的に強調するロバスト適応学習メカニズム(RAL)を提案する。第二に、モデルが自身のミスを強化するエラーの蓄積を緩和するために、RoDEは、多様性を奨励し、崩壊を防ぐために、互いの擬似ラベルを用いて交互に学習される2つの異なるモデルを採用する。しかし、このデュアルモデル戦略は、モデルやモダリティ間のクラスタ間のずれをもたらし、ノイズの多いクラスタ対応を生み出す。これを解決するために、我々は、クラスタ間の類似度を測定することにより、モデルとモダリティ間のクラスタを整合する、クラスタ整合性マッチング(CCM)を導入する。3つのベンチマークを用いた広範な実験により、RoDEの有効性を実証する。

要約(オリジナル)

Unsupervised visible-infrared person re-identification (UVI-ReID) aims to retrieve pedestrian images across different modalities without costly annotations, but faces challenges due to the modality gap and lack of supervision. Existing methods often adopt self-training with clustering-generated pseudo-labels but implicitly assume these labels are always correct. In practice, however, this assumption fails due to inevitable pseudo-label noise, which hinders model learning. To address this, we introduce a new learning paradigm that explicitly considers Pseudo-Label Noise (PLN), characterized by three key challenges: noise overfitting, error accumulation, and noisy cluster correspondence. To this end, we propose a novel Robust Duality Learning framework (RoDE) for UVI-ReID to mitigate the effects of noisy pseudo-labels. First, to combat noise overfitting, a Robust Adaptive Learning mechanism (RAL) is proposed to dynamically emphasize clean samples while down-weighting noisy ones. Second, to alleviate error accumulation-where the model reinforces its own mistakes-RoDE employs dual distinct models that are alternately trained using pseudo-labels from each other, encouraging diversity and preventing collapse. However, this dual-model strategy introduces misalignment between clusters across models and modalities, creating noisy cluster correspondence. To resolve this, we introduce Cluster Consistency Matching (CCM), which aligns clusters across models and modalities by measuring cross-cluster similarity. Extensive experiments on three benchmarks demonstrate the effectiveness of RoDE.

arxiv情報

著者 Yongxiang Li,Yuan Sun,Yang Qin,Dezhong Peng,Xi Peng,Peng Hu
発行日 2025-05-05 10:36:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM | Robust Duality Learning for Unsupervised Visible-Infrared Person Re-Identfication はコメントを受け付けていません

CaRe-Ego: Contact-aware Relationship Modeling for Egocentric Interactive Hand-object Segmentation

要約

エゴセントリック・インタラクティブ・ハンド・オブジェクト・セグメンテーション(EgoIHOS)は、エゴセントリック画像における手と対話オブジェクトのセグメンテーションを必要とし、これは支援システムにおける人間の行動を理解するために極めて重要である。これまでの手法は、視覚的特徴のみに基づいて、手と対話物体を異なる意味カテゴリとして認識したり、物体分割の補助的な手がかりとして手の予測を利用したりするのが一般的であった。これらの手法によって有望な進歩が達成されたにもかかわらず、手と物体の間の相互関係を適切にモデル化することができず、一方で物体カテゴリ間の結合した物理的関係を無視しているため、最終的にセグメンテーション性能が制約されている。既存の手法の欠点を補うために、我々は、手と物体の接触を2つの側面から強調することにより、最先端の性能を達成するCaRe-Egoと呼ばれる新しい手法を提案する。第一に、手と物体の相互関係を確立し、より接触に関連した識別可能な物体特徴を抽出するために、HOFE(Hand-guided Object Feature Enhancer)を導入する。第二に、物体カテゴリ間の結合関係を明示的にモデル化し、分離することにより、接触を意識した特徴学習を重視する接触中心物体分離戦略(CODS)を設計する。様々な領域内および領域外のテストセットを用いた実験により、Care-Egoが頑健な汎化能力で既存の手法を大幅に上回ることが示された。コードは https://github.com/yuggiehk/CaRe-Ego/ で公開されている。

要約(オリジナル)

Egocentric Interactive hand-object segmentation (EgoIHOS) requires the segmentation of hands and interacting objects in egocentric images, which is crucial for understanding human behavior in assistive systems. Previous methods typically recognize hands and interacting objects as distinct semantic categories based solely on visual features, or simply use hand predictions as auxiliary cues for object segmentation. Despite the promising progress achieved by these methods, they fail to adequately model the interactive relationships between hands and objects while ignoring the coupled physical relationships among object categories, ultimately constraining their segmentation performance. To make up for the shortcomings of existing methods, we propose a novel method called CaRe-Ego that achieves state-of-the-art performance by emphasizing the contact between hands and objects from two aspects. First, we introduce a Hand-guided Object Feature Enhancer (HOFE) to establish the hand-object interactive relationships to extract more contact-relevant and discriminative object features. Second, we design the Contact-centric Object Decoupling Strategy (CODS) to explicitly model and disentangle coupling relationships among object categories, thereby emphasizing contact-aware feature learning. Experiments on various in-domain and out-of-domain test sets show that Care-Ego significantly outperforms existing methods with robust generalization capability. Codes are publicly available at https://github.com/yuggiehk/CaRe-Ego/.

arxiv情報

著者 Yuejiao Su,Yi Wang,Lap-Pui Chau
発行日 2025-05-05 11:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | CaRe-Ego: Contact-aware Relationship Modeling for Egocentric Interactive Hand-object Segmentation はコメントを受け付けていません