Multimodal Diffusion Bridge with Attention-Based SAR Fusion for Satellite Image Cloud Removal

要約

ディープラーニングは、合成開口レーダー(SAR)画像と融合することで、光学衛星画像における雲除去の課題に対処し、一定の成功を収めている。最近では、拡散モデルが雲除去のための強力なツールとして登場し、以前の手法と比較して、雲のない分布からサンプリングすることにより、より高品質な推定を実現している。しかし、拡散モデルは純粋なガウスノイズからのサンプリングを開始するため、サンプリング軌道が複雑になり、最適な性能が得られない。また、現在の手法では、SARと光学データを効果的に融合させることができません。これらの限界に対処するため、我々はDiffusion Bridges for Cloud Removal(DB-CR)を提案する。さらに、マルチモーダル画像復元のために、効率的なバックボーンと専用のクロスモダリティ融合ブロックを組み込み、合成開口レーダー(SAR)と光学画像から効果的に特徴を抽出し融合する、2分岐バックボーンを持つ新しいマルチモーダル拡散ブリッジアーキテクチャを提案する。雲除去を拡散ブリッジ問題として定式化し、この調整されたアーキテクチャを活用することで、DB-CRは計算効率に優れながら、忠実度の高い結果を達成する。我々はSEN12MS-CR雲除去データセットでDB-CRを評価し、DB-CRが最先端の結果を達成することを実証した。

要約(オリジナル)

Deep learning has achieved some success in addressing the challenge of cloud removal in optical satellite images, by fusing with synthetic aperture radar (SAR) images. Recently, diffusion models have emerged as powerful tools for cloud removal, delivering higher-quality estimation by sampling from cloud-free distributions, compared to earlier methods. However, diffusion models initiate sampling from pure Gaussian noise, which complicates the sampling trajectory and results in suboptimal performance. Also, current methods fall short in effectively fusing SAR and optical data. To address these limitations, we propose Diffusion Bridges for Cloud Removal, DB-CR, which directly bridges between the cloudy and cloud-free image distributions. In addition, we propose a novel multimodal diffusion bridge architecture with a two-branch backbone for multimodal image restoration, incorporating an efficient backbone and dedicated cross-modality fusion blocks to effectively extract and fuse features from synthetic aperture radar (SAR) and optical images. By formulating cloud removal as a diffusion-bridge problem and leveraging this tailored architecture, DB-CR achieves high-fidelity results while being computationally efficient. We evaluated DB-CR on the SEN12MS-CR cloud-removal dataset, demonstrating that it achieves state-of-the-art results.

arxiv情報

著者 Yuyang Hu,Suhas Lohit,Ulugbek S. Kamilov,Tim K. Marks
発行日 2025-04-04 17:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Multimodal Diffusion Bridge with Attention-Based SAR Fusion for Satellite Image Cloud Removal はコメントを受け付けていません

Autonomous and Self-Adapting System for Synthetic Media Detection and Attribution

要約

ジェネレーティブAIの急速な進歩により、非常にリアルな合成画像の作成が可能になったが、これは多くの領域で有益である一方で、偽情報、詐欺、その他の悪意のあるアプリケーションという点で深刻なリスクももたらす。現在の合成画像識別システムは一般的に静的であり、既知のジェネレータから学習された特徴表現に依存している。新しいジェネレーティブモデルが出現するにつれて、これらのシステムは深刻な性能低下に悩まされる。この論文では、自律的な自己適応型合成メディア識別システムの概念を紹介する。このシステムは、合成画像を検出して既知のソースに帰属させるだけでなく、人間の介入なしに自律的に新しいジェネレータを識別して組み込む。我々のアプローチは、既知のソースと未知のソースを区別する、進化可能な埋め込み空間を持つオープンセット識別戦略を活用する。教師なしクラスタリング法を採用して未知のサンプルを信頼性の高いクラスタに集約し、その判定境界を継続的に改良することで、本システムは、生成ランドスケープが進化しても、ロバストな検出と帰属の性能を維持する。広範な実験により、我々の手法が既存のアプローチを大幅に上回ることが実証され、急速に進歩する生成モデルの時代において、普遍的で適応可能な法医学システムに向けた重要な一歩となる。

要約(オリジナル)

Rapid advances in generative AI have enabled the creation of highly realistic synthetic images, which, while beneficial in many domains, also pose serious risks in terms of disinformation, fraud, and other malicious applications. Current synthetic image identification systems are typically static, relying on feature representations learned from known generators; as new generative models emerge, these systems suffer from severe performance degradation. In this paper, we introduce the concept of an autonomous self-adaptive synthetic media identification system — one that not only detects synthetic images and attributes them to known sources but also autonomously identifies and incorporates novel generators without human intervention. Our approach leverages an open-set identification strategy with an evolvable embedding space that distinguishes between known and unknown sources. By employing an unsupervised clustering method to aggregate unknown samples into high-confidence clusters and continuously refining its decision boundaries, our system maintains robust detection and attribution performance even as the generative landscape evolves. Extensive experiments demonstrate that our method significantly outperforms existing approaches, marking a crucial step toward universal, adaptable forensic systems in the era of rapidly advancing generative models.

arxiv情報

著者 Aref Azizpour,Tai D. Nguyen,Matthew C. Stamm
発行日 2025-04-04 17:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | Autonomous and Self-Adapting System for Synthetic Media Detection and Attribution はコメントを受け付けていません

VISTA-OCR: Towards generative and interactive end to end OCR models

要約

を紹介します。(Vision and Spatially-aware Text Analysis OCR) は、テキスト検出と認識を単一の生成モデル内に統合した軽量アーキテクチャです。テキスト認識とテキスト検出のために、専用のパラメータを持つ別々のブランチを必要とする従来の手法とは異なり、我々のアプローチは、Transformerデコーダを活用し、統一されたブランチでテキストの転写とその空間座標を順次生成する。VISTA-OCRは、エンコーダ-デコーダアーキテクチャに基づき、視覚的特徴抽出フェーズから始まり、マルチモーダルなトークン生成を伴うマルチタスク学習へと段階的に学習される。VISTA-OCRの能力を向上させるために、バウンディングボックス注釈と合成サンプルで強化された実世界のサンプルから構成される新しいデータセットを構築した。最近のVision Large Language Models (VLLM)は、これらのタスクを効率的に実行できるが、計算コストが高いため、実用的な展開の障壁となっている。これに対して、我々のVISTA$_{text{omni}}$変種は、わずか150Mのパラメータで、プロンプトにより対話的に、手書き文書と印刷文書の両方を処理する。複数のデータセットを用いた広範な実験により、VISTA-OCRは、標準的なOCRタスクにおいて、最先端の特殊化モデルと比較して優れた性能を達成する一方、より高度なOCRアプリケーションに強い可能性を示し、対話型OCRシステムに対するニーズの高まりに対応することが実証された。VISTA-OCRのすべてのコードと注釈は、採用された時点で一般公開されます。

要約(オリジナル)

We introduce \textbf{VISTA-OCR} (Vision and Spatially-aware Text Analysis OCR), a lightweight architecture that unifies text detection and recognition within a single generative model. Unlike conventional methods that require separate branches with dedicated parameters for text recognition and detection, our approach leverages a Transformer decoder to sequentially generate text transcriptions and their spatial coordinates in a unified branch. Built on an encoder-decoder architecture, VISTA-OCR is progressively trained, starting with the visual feature extraction phase, followed by multitask learning with multimodal token generation. To address the increasing demand for versatile OCR systems capable of advanced tasks, such as content-based text localization \ref{content_based_localization}, we introduce new prompt-controllable OCR tasks during pre-training.To enhance the model’s capabilities, we built a new dataset composed of real-world examples enriched with bounding box annotations and synthetic samples. Although recent Vision Large Language Models (VLLMs) can efficiently perform these tasks, their high computational cost remains a barrier for practical deployment. In contrast, our VISTA$_{\text{omni}}$ variant processes both handwritten and printed documents with only 150M parameters, interactively, by prompting. Extensive experiments on multiple datasets demonstrate that VISTA-OCR achieves better performance compared to state-of-the-art specialized models on standard OCR tasks while showing strong potential for more sophisticated OCR applications, addressing the growing need for interactive OCR systems. All code and annotations for VISTA-OCR will be made publicly available upon acceptance.

arxiv情報

著者 Laziz Hamdi,Amine Tamasna,Pascal Boisson,Thierry Paquet
発行日 2025-04-04 17:39:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | VISTA-OCR: Towards generative and interactive end to end OCR models はコメントを受け付けていません

Quantifying the uncertainty of model-based synthetic image quality metrics

要約

合成的に生成された画像(例えば拡散モデルによって生成された画像)の品質は、事前に学習された補助モデルによって符号化された画像コンテンツに関する情報を用いて評価されることが多い。例えば、Fr{e}chet Inception Distance (FID)は、ImageNetを分類するために事前に学習されたInceptionV3モデルからの埋め込みを使用する。この特徴埋め込みモデルの有効性は、計算されたメトリックの信頼性に大きな影響を与える(医用画像を含むいくつかのドメインでの適性に影響する)。ここでは、不確実性定量化(UQ)を用いて、特徴埋め込みモデルの信頼性の発見的尺度を提供し、Fr{e}chet Autoencoder Distance (FAED)と呼ばれるFID類似の尺度を提供する。特徴埋め込みモデル(畳み込みオートエンコーダ)にモンテカルロドロップアウトを適用し、その埋め込みにおける不確実性をモデル化する。そして、各入力に対する埋め込み値の分布を用いて、FAED値の分布を計算する。我々は、埋め込み値の予測分散と、計算されたFAED値の標準偏差として不確実性を表現する。これらの大きさは、入力がモデルの学習データに対してどの程度分布から外れているかということと相関しており、FAEDの信頼性を評価する能力を検証することができる。

要約(オリジナル)

The quality of synthetically generated images (e.g. those produced by diffusion models) are often evaluated using information about image contents encoded by pretrained auxiliary models. For example, the Fr\'{e}chet Inception Distance (FID) uses embeddings from an InceptionV3 model pretrained to classify ImageNet. The effectiveness of this feature embedding model has considerable impact on the trustworthiness of the calculated metric (affecting its suitability in several domains, including medical imaging). Here, uncertainty quantification (UQ) is used to provide a heuristic measure of the trustworthiness of the feature embedding model and an FID-like metric called the Fr\'{e}chet Autoencoder Distance (FAED). We apply Monte Carlo dropout to a feature embedding model (convolutional autoencoder) to model the uncertainty in its embeddings. The distribution of embeddings for each input are then used to compute a distribution of FAED values. We express uncertainty as the predictive variance of the embeddings as well as the standard deviation of the computed FAED values. We find that their magnitude correlates with the extent to which the inputs are out-of-distribution to the model’s training data, providing some validation of its ability to assess the trustworthiness of the FAED.

arxiv情報

著者 Ciaran Bench,Spencer A. Thomas
発行日 2025-04-04 17:41:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Quantifying the uncertainty of model-based synthetic image quality metrics はコメントを受け付けていません

An Algebraic Geometry Approach to Viewing Graph Solvability

要約

ビューインググラフの可解性という概念は、structure-from-motionの文脈で大きな関心を集めている。ビューインググラフとは、ノードがカメラに関連付けられ、エッジが重なり合うビューを結ぶエピポーラ幾何を表す数学的構造である。可解性は、どのような条件下でカメラがグラフによって一意に決定されるかを研究する。本論文では、代数幾何学に基づく可解性問題を解析するための新しい枠組みを提案し、動きから見た構造グラフを理解する上での可能性を示すとともに、以前に提案された予想を証明する。

要約(オリジナル)

The concept of viewing graph solvability has gained significant interest in the context of structure-from-motion. A viewing graph is a mathematical structure where nodes are associated to cameras and edges represent the epipolar geometry connecting overlapping views. Solvability studies under which conditions the cameras are uniquely determined by the graph. In this paper we propose a novel framework for analyzing solvability problems based on Algebraic Geometry, demonstrating its potential in understanding structure-from-motion graphs and proving a conjecture that was previously proposed.

arxiv情報

著者 Federica Arrigoni,Kathlén Kohn,Andrea Fusiello,Tomas Pajdla
発行日 2025-04-04 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, math.AG | An Algebraic Geometry Approach to Viewing Graph Solvability はコメントを受け付けていません

AdaCM$^2$: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction

要約

大規模言語モデル(LLM)の進歩により、LLMを視覚モデルに組み込むことで、動画理解タスクの改善が推進されている。しかし、既存のLLMベースのモデル(VideoLLaMA、VideoChatなど)のほとんどは、短時間の動画の処理に制約がある。最近では、視覚的特徴を抽出し、固定メモリサイズに圧縮することで、長時間の動画を理解する試みがなされている。しかしながら、これらの方法は、ビデオトークンをマージするために視覚的モダリティのみを利用し、視覚的クエリとテキストクエリ間の相関を見落としているため、複雑な質問応答タスクを効果的に処理することが困難である。長いビデオと複雑なプロンプトの課題に対処するために、我々はAdaCM$^2$を提案する。AdaCM$^2$は、適応的なクロスモダリティメモリ削減アプローチを初めてビデオストリーム上で自動回帰的にビデオとテキストのアライメントに導入する。ビデオキャプション、ビデオ質問応答、ビデオ分類などの様々なビデオ理解タスクに対する我々の広範な実験により、AdaCM$^2$は、メモリ使用量を大幅に削減しながら、複数のデータセットにおいて最先端の性能を達成することが実証された。特に、LVUデータセットの複数のタスクにおいて、GPUメモリ消費量を最大65%削減しながら、4.5%の改善を達成しています。

要約(オリジナル)

The advancements in large language models (LLMs) have propelled the improvement of video understanding tasks by incorporating LLMs with visual models. However, most existing LLM-based models (e.g., VideoLLaMA, VideoChat) are constrained to processing short-duration videos. Recent attempts to understand long-term videos by extracting and compressing visual features into a fixed memory size. Nevertheless, those methods leverage only visual modality to merge video tokens and overlook the correlation between visual and textual queries, leading to difficulties in effectively handling complex question-answering tasks. To address the challenges of long videos and complex prompts, we propose AdaCM$^2$, which, for the first time, introduces an adaptive cross-modality memory reduction approach to video-text alignment in an auto-regressive manner on video streams. Our extensive experiments on various video understanding tasks, such as video captioning, video question answering, and video classification, demonstrate that AdaCM$^2$ achieves state-of-the-art performance across multiple datasets while significantly reducing memory usage. Notably, it achieves a 4.5% improvement across multiple tasks in the LVU dataset with a GPU memory consumption reduction of up to 65%.

arxiv情報

著者 Yuanbin Man,Ying Huang,Chengming Zhang,Bingzhe Li,Wei Niu,Miao Yin
発行日 2025-04-04 17:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | AdaCM$^2$: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction はコメントを受け付けていません

Shape My Moves: Text-Driven Shape-Aware Synthesis of Human Motions

要約

これは、均質化された標準的な体型を学習することが容易なため、既存のテキストからモーションを生成する手法では見過ごされがちな側面である。しかし、この均質化は、異なる体型とその動きのダイナミクスの間の自然な相関を歪める可能性がある。本手法は、自然言語プロンプトから体型を考慮した人間のモーションを生成することで、このギャップに対処する。我々は、有限スカラー量子化ベースの変分オートエンコーダ(FSQ-VAE)を利用して、モーションを離散的なトークンに量子化し、連続的な体型情報を活用して、これらのトークンを連続的で詳細なモーションに戻す。さらに、連続的な形状パラメータとモーション・トークンの両方を予測するために、事前に訓練された言語モデルの能力を利用し、テキストに沿ったモーションの合成と、形状を意識したモーションへのデコードを容易にする。本手法を定量的、定性的に評価し、形状認識モーションの生成における有効性を実証するための包括的な知覚研究も行う。

要約(オリジナル)

We explore how body shapes influence human motion synthesis, an aspect often overlooked in existing text-to-motion generation methods due to the ease of learning a homogenized, canonical body shape. However, this homogenization can distort the natural correlations between different body shapes and their motion dynamics. Our method addresses this gap by generating body-shape-aware human motions from natural language prompts. We utilize a finite scalar quantization-based variational autoencoder (FSQ-VAE) to quantize motion into discrete tokens and then leverage continuous body shape information to de-quantize these tokens back into continuous, detailed motion. Additionally, we harness the capabilities of a pretrained language model to predict both continuous shape parameters and motion tokens, facilitating the synthesis of text-aligned motions and decoding them into shape-aware motions. We evaluate our method quantitatively and qualitatively, and also conduct a comprehensive perceptual study to demonstrate its efficacy in generating shape-aware motions.

arxiv情報

著者 Ting-Hsuan Liao,Yi Zhou,Yu Shen,Chun-Hao Paul Huang,Saayan Mitra,Jia-Bin Huang,Uttaran Bhattacharya
発行日 2025-04-04 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Shape My Moves: Text-Driven Shape-Aware Synthesis of Human Motions はコメントを受け付けていません

Bonsai: Interpretable Tree-Adaptive Grounded Reasoning

要約

汎用的な協調エージェントを開発するためには、(1)新しいドメインに適応でき、(2)検証や修正を可能にするために不確実性を透過的に推論できる、信頼性の高いAIシステムが必要である。ブラックボックスモデルは強力なデータ処理能力を示すが、その不透明性、ドメイン固有性、不確実性の認識不足のため、これらの基準を満たすことはできない。我々はBonsaiを紹介する。Bonsaiは構成的で確率的な推論システムであり、関連する根拠となる証拠を検索し、それを用いてより広範な自然言語推論から導かれるサブクレームの尤度を計算することにより、適応可能な推論ツリーを生成する。Bonsaiの推論能力はエビデンススケーリングによりテスト時に調整可能であり、トランスクリプト、写真、ビデオ、オーディオ、データベースを含む様々なドメインの信頼性の高いハンドリングを実証している。質問応答と人間によるアラインメントの実験では、Bonsaiが解釈可能で、根拠があり、不確実性を考慮した推論トレースを生成しながら、ドメイン固有のブラックボックス手法の性能に匹敵することを実証している。

要約(オリジナル)

To develop general-purpose collaborative agents, humans need reliable AI systems that can (1) adapt to new domains and (2) transparently reason with uncertainty to allow for verification and correction. Black-box models demonstrate powerful data processing abilities but do not satisfy these criteria due to their opaqueness, domain specificity, and lack of uncertainty awareness. We introduce Bonsai, a compositional and probabilistic reasoning system that generates adaptable inference trees by retrieving relevant grounding evidence and using it to compute likelihoods of sub-claims derived from broader natural language inferences. Bonsai’s reasoning power is tunable at test-time via evidence scaling and it demonstrates reliable handling of varied domains including transcripts, photographs, videos, audio, and databases. Question-answering and human alignment experiments demonstrate that Bonsai matches the performance of domain-specific black-box methods while generating interpretable, grounded, and uncertainty-aware reasoning traces.

arxiv情報

著者 Kate Sanders,Benjamin Van Durme
発行日 2025-04-04 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T37, 68T50, cs.AI, cs.CL, cs.CV, I.2.7 | Bonsai: Interpretable Tree-Adaptive Grounded Reasoning はコメントを受け付けていません

MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models

要約

既存のMLLMベンチマークは、Unified MLLM(U-MLLM)の評価において、以下のような大きな課題に直面している:1)伝統的なタスクのための標準化されたベンチマークがないため、一貫性のない比較になる。2)混合モダリティ生成のためのベンチマークがないため、マルチモーダル推論能力を評価できない。我々は、U-MLLMを体系的に評価するために設計された包括的な評価フレームワークを提示する。我々のベンチマークには以下が含まれる:標準化された従来のタスク評価。30のサブタスクを持つ10のタスクをカバーする12のデータセットからサンプリングし、研究間の一貫した公平な比較を保証する。2.統一タスク評価。画像編集、画像生成による常識的なQA、幾何学的推論を含む、マルチモーダル推論をテストする5つの新規タスクを導入する。3.包括的なモデルのベンチマーク。Janus-Pro、EMU3、VILA-U、Gemini2-flashなどの12の主要なU-MLLMを、特殊な理解モデル(Claude-3.5-Sonnetなど)や生成モデル(DALL-E-3など)とともに評価する。我々の発見は、既存のU-MLLMの性能に大きなギャップがあることを明らかにし、混合モダリティタスクを効果的に処理できる、より頑健なモデルの必要性を強調している。コードと評価データはhttps://mme-unify.github.io/。

要約(オリジナル)

Existing MLLM benchmarks face significant challenges in evaluating Unified MLLMs (U-MLLMs) due to: 1) lack of standardized benchmarks for traditional tasks, leading to inconsistent comparisons; 2) absence of benchmarks for mixed-modality generation, which fails to assess multimodal reasoning capabilities. We present a comprehensive evaluation framework designed to systematically assess U-MLLMs. Our benchmark includes: Standardized Traditional Task Evaluation. We sample from 12 datasets, covering 10 tasks with 30 subtasks, ensuring consistent and fair comparisons across studies.’ 2. Unified Task Assessment. We introduce five novel tasks testing multimodal reasoning, including image editing, commonsense QA with image generation, and geometric reasoning. 3. Comprehensive Model Benchmarking. We evaluate 12 leading U-MLLMs, such as Janus-Pro, EMU3, VILA-U, and Gemini2-flash, alongside specialized understanding (e.g., Claude-3.5-Sonnet) and generation models (e.g., DALL-E-3). Our findings reveal substantial performance gaps in existing U-MLLMs, highlighting the need for more robust models capable of handling mixed-modality tasks effectively. The code and evaluation data can be found in https://mme-unify.github.io/.

arxiv情報

著者 Wulin Xie,Yi-Fan Zhang,Chaoyou Fu,Yang Shi,Bingyan Nie,Hongkai Chen,Zhang Zhang,Liang Wang,Tieniu Tan
発行日 2025-04-04 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models はコメントを受け付けていません

Overcoming Deceptiveness in Fitness Optimization with Unsupervised Quality-Diversity

要約

政策最適化は、目的関数または適合度関数に従って制御問題の最適解を求めるもので、ロボット工学に応用される工学および研究の基礎分野として機能している。強化学習や進化的アルゴリズムのような伝統的な最適化手法は、欺瞞的なフィットネスランドスケープに苦戦し、即座の改善を追いかけると最適解以下になってしまう。品質多様性(QD)アルゴリズムは、局所最適を脱出するための足がかりとして多様な中間解を維持することで、有望なアプローチを提供する。しかし、QDアルゴリズムには、手作業で特徴を定義するための専門知識が必要であり、解の多様性を特徴付けることが不明確なままである場合には適用が制限される。本論文では、教師なしQDアルゴリズム(特に、感覚データから特徴を学習するAURORAフレームワーク)が、領域の専門知識がなくても、欺瞞的最適化問題を効率的に解くことを示す。AURORAを対照学習と周期的消滅イベントで強化することで、我々はAURORA-XConを提案する。AURORA-XConは、従来の最適化ベースラインの全てを凌駕し、ドメイン固有の手作業で作成された特徴を持つ最良のQDベースラインに匹敵し、場合によっては最大34%改善する。この研究は、教師なしQDアルゴリズムの新しい応用を確立し、従来の最適化に対する新しい解の発見からその焦点を移し、特徴空間を定義することが困難であるドメインにその可能性を拡大する。

要約(オリジナル)

Policy optimization seeks the best solution to a control problem according to an objective or fitness function, serving as a fundamental field of engineering and research with applications in robotics. Traditional optimization methods like reinforcement learning and evolutionary algorithms struggle with deceptive fitness landscapes, where following immediate improvements leads to suboptimal solutions. Quality-diversity (QD) algorithms offer a promising approach by maintaining diverse intermediate solutions as stepping stones for escaping local optima. However, QD algorithms require domain expertise to define hand-crafted features, limiting their applicability where characterizing solution diversity remains unclear. In this paper, we show that unsupervised QD algorithms – specifically the AURORA framework, which learns features from sensory data – efficiently solve deceptive optimization problems without domain expertise. By enhancing AURORA with contrastive learning and periodic extinction events, we propose AURORA-XCon, which outperforms all traditional optimization baselines and matches, in some cases even improving by up to 34%, the best QD baseline with domain-specific hand-crafted features. This work establishes a novel application of unsupervised QD algorithms, shifting their focus from discovering novel solutions toward traditional optimization and expanding their potential to domains where defining feature spaces poses challenges.

arxiv情報

著者 Lisa Coiffard,Paul Templier,Antoine Cully
発行日 2025-04-04 15:03:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.NE, cs.RO | Overcoming Deceptiveness in Fitness Optimization with Unsupervised Quality-Diversity はコメントを受け付けていません