SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models

要約

運動と空間に関する推論は、複数の実世界アプリケーションで必要とされる基本的な認知能力である。多くの研究が、大規模なマルチモーダル言語モデル(MLM)が空間に関する推論に苦労していることを強調しているが、それらは静的な空間関係にのみ焦点を当てており、動きと空間に関する動的な認識、すなわち、空間関係に対する自心運動や物体運動の影響に関する推論には焦点を当てていない。このようなオブジェクトやカメラの動きを手動でアノテートするのはコストがかかる。そこで、我々は、17万5千の質問と回答(QA)のペアと2万シーンにわたる静的および動的な空間的推論からなる模擬空間適性訓練データセットであるSATを導入する。これを補完するために、我々はまた、実世界の画像を用いて、小規模(150画像-QA)でありながら挑戦的な動的空間テストセットを構築する。我々のSATデータセットと既存の6つの静的空間ベンチマークを活用し、静的空間認識と動的空間認識の両方を向上させるものを系統的に調査する。その結果、シミュレーションは、MLMに空間適性を付与する上で驚くほど効果的であり、それが実画像に反映されることが明らかになった。シミュレーションにおける完全なアノテーションは、実画像を擬似的にアノテーションする既存のアプローチよりも効果的であることを示す。例えば、SATのトレーニングは、実画像の動的テストセットや長い動画に対する空間推論を含む複数の空間ベンチマークにおいて、LLaVA-13Bモデルを平均11%、LLaVA-Video-7Bモデルを平均8%向上させる。静的な関係に対する推論は合成訓練データによって改善されるが、動的な推論問題にはまだかなりの改善の余地がある。

要約(オリジナル)

Reasoning about motion and space is a fundamental cognitive capability that is required by multiple real-world applications. While many studies highlight that large multimodal language models (MLMs) struggle to reason about space, they only focus on static spatial relationships, and not dynamic awareness of motion and space, i.e., reasoning about the effect of egocentric and object motions on spatial relationships. Manually annotating such object and camera movements is expensive. Hence, we introduce SAT, a simulated spatial aptitude training dataset comprising both static and dynamic spatial reasoning across 175K question-answer (QA) pairs and 20K scenes. Complementing this, we also construct a small (150 image-QAs) yet challenging dynamic spatial test set using real-world images. Leveraging our SAT datasets and 6 existing static spatial benchmarks, we systematically investigate what improves both static and dynamic spatial awareness. Our results reveal that simulations are surprisingly effective at imparting spatial aptitude to MLMs that translate to real images. We show that perfect annotations in simulation are more effective than existing approaches of pseudo-annotating real images. For instance, SAT training improves a LLaVA-13B model by an average 11% and a LLaVA-Video-7B model by an average 8% on multiple spatial benchmarks, including our real-image dynamic test set and spatial reasoning on long videos — even outperforming some large proprietary models. While reasoning over static relationships improves with synthetic training data, there is still considerable room for improvement for dynamic reasoning questions.

arxiv情報

著者 Arijit Ray,Jiafei Duan,Ellis Brown,Reuben Tan,Dina Bashkirova,Rose Hendrix,Kiana Ehsani,Aniruddha Kembhavi,Bryan A. Plummer,Ranjay Krishna,Kuo-Hao Zeng,Kate Saenko
発行日 2025-04-03 17:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO | SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models はコメントを受け付けていません

Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation

要約

大規模言語モデル(LLM)の登場は、機械翻訳(MT)の状況を大きく変えてきた。特に、十分なパラレルコーパス、言語ツール、計算インフラがない低リソース言語やドメインにおいて顕著である。本サーベイでは、LLMをMTに活用するための最近の進歩を包括的に紹介する。リソースの乏しい環境にも効果的に適応できるような、少数ショットのプロンプティング、クロスリンガル・トランスファー、パラメータ効率の良い微調整などのテクニックを分析する。また、逆翻訳や語彙増強など、LLMを用いた合成データ生成戦略についても検討する。さらに、様々な言語ペアにおいて、LLMベースの翻訳と従来のエンコーダ・デコーダモデルを比較し、それぞれの長所と限界を明らかにする。また、幻覚、評価の矛盾、遺伝的なバイアスなどの永続的な課題について論じるとともに、LLMに基づく新たな翻訳品質評価指標についても評価する。この調査は、大規模な生成モデルの時代に、堅牢で包括的かつスケーラブルなMTシステムを構築するための実用的な洞察を提供し、将来の方向性を概説する。

要約(オリジナル)

The advent of Large Language Models (LLMs) has significantly reshaped the landscape of machine translation (MT), particularly for low-resource languages and domains that lack sufficient parallel corpora, linguistic tools, and computational infrastructure. This survey presents a comprehensive overview of recent progress in leveraging LLMs for MT. We analyze techniques such as few-shot prompting, cross-lingual transfer, and parameter-efficient fine-tuning that enable effective adaptation to under-resourced settings. The paper also explores synthetic data generation strategies using LLMs, including back-translation and lexical augmentation. Additionally, we compare LLM-based translation with traditional encoder-decoder models across diverse language pairs, highlighting the strengths and limitations of each. We discuss persistent challenges such as hallucinations, evaluation inconsistencies, and inherited biases while also evaluating emerging LLM-driven metrics for translation quality. This survey offers practical insights and outlines future directions for building robust, inclusive, and scalable MT systems in the era of large-scale generative models.

arxiv情報

著者 Baban Gain,Dibyanayan Bandyopadhyay,Asif Ekbal
発行日 2025-04-03 13:30:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation はコメントを受け付けていません

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

要約

近年の画像ベースのヒューマンアニメーション手法は、リアルな身体や顔の動き合成を実現する一方で、きめ細かな全体的制御性、マルチスケール適応性、長期的な時間的一貫性において決定的なギャップが残っており、表現力やロバスト性の低下を招いている。我々は、これらの限界を克服するために、拡散変換(DiT)ベースのフレームワークであるDreamActor-M1とハイブリッドガイダンスを提案する。モーションガイダンスでは、暗黙的な顔表現、3D頭部球体、3D身体スケルトンを統合したハイブリッド制御信号により、表情と身体の動きのロバストな制御を実現し、表現豊かでアイデンティティを保持したアニメーションを生成する。スケール適応については、ポートレートから全身像までの様々な身体ポーズと画像スケールに対応するため、様々な解像度とスケールのデータを用いた漸進的な学習戦略を採用している。アピアランスガイダンスについては、連続するフレームからのモーションパターンを補完的な視覚参照と統合することで、複雑な動きの間の未視認領域の長期的な時間的一貫性を確保する。本手法は、ポートレート、上半身、および全身生成において、長期的な一貫性を維持したまま表現力豊かな結果を提供し、最先端技術を凌駕することを実験により実証している。プロジェクトページ: https://grisoon.github.io/DreamActor-M1/.

要約(オリジナル)

While recent image-based human animation methods achieve realistic body and facial motion synthesis, critical gaps remain in fine-grained holistic controllability, multi-scale adaptability, and long-term temporal coherence, which leads to their lower expressiveness and robustness. We propose a diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid guidance to overcome these limitations. For motion guidance, our hybrid control signals that integrate implicit facial representations, 3D head spheres, and 3D body skeletons achieve robust control of facial expressions and body movements, while producing expressive and identity-preserving animations. For scale adaptation, to handle various body poses and image scales ranging from portraits to full-body views, we employ a progressive training strategy using data with varying resolutions and scales. For appearance guidance, we integrate motion patterns from sequential frames with complementary visual references, ensuring long-term temporal coherence for unseen regions during complex movements. Experiments demonstrate that our method outperforms the state-of-the-art works, delivering expressive results for portraits, upper-body, and full-body generation with robust long-term consistency. Project Page: https://grisoon.github.io/DreamActor-M1/.

arxiv情報

著者 Yuxuan Luo,Zhengkun Rong,Lizhen Wang,Longhao Zhang,Tianshu Hu,Yongming Zhu
発行日 2025-04-03 14:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance はコメントを受け付けていません

ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

要約

ILLUME+は、二重の視覚的トークン化と拡散デコーダを活用し、深い意味理解と忠実度の高い画像生成の両方を改善する。既存の統一モデルは、統一モデルにおける3つの基本的な機能、すなわち理解、生成、編集を同時に扱うことに苦労してきた。ChameleonやEMU3のようなモデルは画像の離散化にVQGANを利用しているが、深い意味的相互作用がないため、視覚理解タスクにおいてLLaVAのような専門モデルに遅れをとっている。これを軽減するために、LaViTとILLUMEはトークン化にセマンティックエンコーダを採用しているが、テクスチャの保存性が低いため、画像編集に苦労している。一方、Janusシリーズは、入力画像と出力画像の表現を切り離すため、インターリーブされた画像とテキストの理解と生成をシームレスに処理する能力が制限される。これに対してILLUME+は、マルチモーダルな理解と生成のための粗い画像から細かい画像への表現戦略を可能にしながら、細かいテクスチャとテキストに沿ったセマンティクスの両方を保持する、統一されたデュアルビジュアル・トークナイザー、DualViTokを導入する。さらに、生成品質の向上と効率的な超解像のために、画像のデトークナイザーとして拡散モデルを採用しています。ILLUME+は、統一されたMLLMの中で連続入力、離散出力の方式に従い、ビジョントークナイザー、MLLM、拡散デコーダー全体で動的な解像度をサポートする漸進的な学習手順を採用しています。この設計により、多様なタスクにおいて、文脈を考慮した柔軟で効率的な画像編集と生成が可能になる。ILLUME+ (3B)は、マルチモーダル理解、生成、編集ベンチマークにおいて、既存の統一MLLMや特殊モデルに対して競争力のある性能を示す。その強力な性能により、ILLUME+は将来のマルチモーダルアプリケーションのためのスケーラブルで汎用的な基盤を提供します。プロジェクトページ: https://illume-unified-mllm.github.io/.

要約(オリジナル)

We present ILLUME+ that leverages dual visual tokenization and a diffusion decoder to improve both deep semantic understanding and high-fidelity image generation. Existing unified models have struggled to simultaneously handle the three fundamental capabilities in a unified model: understanding, generation, and editing. Models like Chameleon and EMU3 utilize VQGAN for image discretization, due to the lack of deep semantic interaction, they lag behind specialist models like LLaVA in visual understanding tasks. To mitigate this, LaViT and ILLUME employ semantic encoders for tokenization, but they struggle with image editing due to poor texture preservation. Meanwhile, Janus series decouples the input and output image representation, limiting their abilities to seamlessly handle interleaved image-text understanding and generation. In contrast, ILLUME+ introduces a unified dual visual tokenizer, DualViTok, which preserves both fine-grained textures and text-aligned semantics while enabling a coarse-to-fine image representation strategy for multimodal understanding and generation. Additionally, we employ a diffusion model as the image detokenizer for enhanced generation quality and efficient super-resolution. ILLUME+ follows a continuous-input, discrete-output scheme within the unified MLLM and adopts a progressive training procedure that supports dynamic resolution across the vision tokenizer, MLLM, and diffusion decoder. This design allows for flexible and efficient context-aware image editing and generation across diverse tasks. ILLUME+ (3B) exhibits competitive performance against existing unified MLLMs and specialized models across multimodal understanding, generation, and editing benchmarks. With its strong performance, ILLUME+ provides a scalable and versatile foundation for future multimodal applications. Project Page: https://illume-unified-mllm.github.io/.

arxiv情報

著者 Runhui Huang,Chunwei Wang,Junwei Yang,Guansong Lu,Yunlong Yuan,Jianhua Han,Lu Hou,Wei Zhang,Lanqing Hong,Hengshuang Zhao,Hang Xu
発行日 2025-04-03 16:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement はコメントを受け付けていません

VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

要約

疎なビューから3Dシーンを復元することは、その本質的な非正規問題のために困難なタスクである。従来の手法では、この問題を軽減するための特殊な解決策(例えば、ジオメトリ正則化やフィードフォワード決定論的モデル)が開発されてきた。しかし、それでもなお、視覚情報が不十分な入力ビュー間の重なりが最小限であることによる性能劣化に悩まされている。幸いなことに、最近のビデオ生成モデルは、もっともらしい3D構造を持つビデオクリップを生成できるため、この課題への対処に有望である。事前に学習された大規模な映像拡散モデルを用いて、いくつかの先駆的な研究が映像生成モデルの可能性を追求し始め、疎なビューから3Dシーンを生成している。しかしながら、これらの研究は、推論時間の遅さと3D制約の欠如によって制限されており、非効率と、実世界の形状構造と一致しない再構成アーチファクトを引き起こしている。本論文では、動画から3Dへのギャップを埋める効率的で効果的なツールの構築を目指し、ワンステップで3Dシーンを生成するために動画拡散モデルを抽出するVideoSceneを提案する。具体的には、時間のかかる冗長な情報をリープするための3Dを意識したリープフロー蒸留戦略を設計し、推論中に最適なリープタイムステップを適応的に決定するための動的ノイズ除去ポリシーネットワークを学習する。広範な実験により、我々のVideoSceneは、従来のビデオ拡散モデルよりも高速で優れた3Dシーン生成結果を達成し、将来のビデオから3Dへのアプリケーションのための効率的なツールとしての可能性を強調している。プロジェクトページ: https://hanyang-21.github.io/VideoScene

要約(オリジナル)

Recovering 3D scenes from sparse views is a challenging task due to its inherent ill-posed problem. Conventional methods have developed specialized solutions (e.g., geometry regularization or feed-forward deterministic model) to mitigate the issue. However, they still suffer from performance degradation by minimal overlap across input views with insufficient visual information. Fortunately, recent video generative models show promise in addressing this challenge as they are capable of generating video clips with plausible 3D structures. Powered by large pretrained video diffusion models, some pioneering research start to explore the potential of video generative prior and create 3D scenes from sparse views. Despite impressive improvements, they are limited by slow inference time and the lack of 3D constraint, leading to inefficiencies and reconstruction artifacts that do not align with real-world geometry structure. In this paper, we propose VideoScene to distill the video diffusion model to generate 3D scenes in one step, aiming to build an efficient and effective tool to bridge the gap from video to 3D. Specifically, we design a 3D-aware leap flow distillation strategy to leap over time-consuming redundant information and train a dynamic denoising policy network to adaptively determine the optimal leap timestep during inference. Extensive experiments demonstrate that our VideoScene achieves faster and superior 3D scene generation results than previous video diffusion models, highlighting its potential as an efficient tool for future video to 3D applications. Project Page: https://hanyang-21.github.io/VideoScene

arxiv情報

著者 Hanyang Wang,Fangfu Liu,Jiawei Chi,Yueqi Duan
発行日 2025-04-03 14:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step はコメントを受け付けていません

Testing Low-Resource Language Support in LLMs Using Language Proficiency Exams: the Case of Luxembourgish

要約

大規模言語モデル(LLM)は、研究や社会全般においてますます重要なツールとなっている。LLMは、専門家にも一般人にも、世界中で定期的に使用されているが、主に英語圏のユーザーを念頭に開発されており、英語やその他の広く普及している言語で優れた性能を発揮する一方、ルクセンブルク語のようなリソースの少ない言語は優先度が低いと見なされている。この注目度の低さは、利用可能な評価ツールやデータセットの少なさにも反映されている。本研究では、ルクセンブルク語の評価ツールとしての言語能力試験の可能性を調査する。その結果、ChatGPT、Claude、DeepSeek-R1などの大規模なモデルは一般的に高いスコアを達成する一方、小規模なモデルは弱いパフォーマンスを示すことがわかった。また、このような言語能力試験の成績は、他の自然言語処理タスクの成績を予測するために利用できることもわかった。

要約(オリジナル)

Large Language Models (LLMs) have become an increasingly important tool in research and society at large. While LLMs are regularly used all over the world by experts and lay-people alike, they are predominantly developed with English-speaking users in mind, performing well in English and other wide-spread languages while less-resourced languages such as Luxembourgish are seen as a lower priority. This lack of attention is also reflected in the sparsity of available evaluation tools and datasets. In this study, we investigate the viability of language proficiency exams as such evaluation tools for the Luxembourgish language. We find that large models such as ChatGPT, Claude and DeepSeek-R1 typically achieve high scores, while smaller models show weak performances. We also find that the performances in such language exams can be used to predict performances in other NLP tasks.

arxiv情報

著者 Cedric Lothritz,Jordi Cabot
発行日 2025-04-03 11:39:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Testing Low-Resource Language Support in LLMs Using Language Proficiency Exams: the Case of Luxembourgish はコメントを受け付けていません

InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation

要約

文脈内学習(In-Context Learning: ICL)は大規模言語モデル(Large Language Model: LLM)にとって重要であるが、その有効性は有限な文脈ウィンドウ、特に超長文文脈によって制約される。これを克服するために、我々は、LLMにおけるコンテキストとパラメータを、人間の認知システムにおける短期記憶と長期記憶に類似させたフレームワークであるInfiniteICLを導入し、一時的なコンテキスト知識を永続的なパラメータ更新に変換することに焦点を当てる。このアプローチは、メモリ使用量を大幅に削減し、様々な入力の長さに対してロバストな性能を維持し、理論的には、コンテキスト知識の誘発、選択、統合の原理により、無限のコンテキスト統合を可能にする。評価により、本手法はコンテキスト長を90%削減する一方で、事実想起、根拠推論、技能習得の各課題において、フルコンテキストプロンプトの平均103%の性能を達成することが実証された。また、複雑な実世界のコンテキスト(2Mトークンまでの長さ)に対して逐次的なマルチターン変換を行った場合、我々のアプローチは、元のコンテキストのわずか0.4%しか使用せずに、フルコンテキストプロンプトを上回る。これらの結果は、InfiniteICLが、従来のコンテキストウィンドウサイズの制限を打破することにより、LLMのスケーラビリティと効率を向上させる可能性があることを強調している。

要約(オリジナル)

In-context learning (ICL) is critical for large language models (LLMs), but its effectiveness is constrained by finite context windows, particularly in ultra-long contexts. To overcome this, we introduce InfiniteICL, a framework that parallels context and parameters in LLMs with short- and long-term memory in human cognitive systems, focusing on transforming temporary context knowledge into permanent parameter updates. This approach significantly reduces memory usage, maintains robust performance across varying input lengths, and theoretically enables infinite context integration through the principles of context knowledge elicitation, selection, and consolidation. Evaluations demonstrate that our method reduces context length by 90% while achieving 103% average performance of full-context prompting across fact recall, grounded reasoning, and skill acquisition tasks. When conducting sequential multi-turn transformations on complex, real-world contexts (with length up to 2M tokens), our approach surpasses full-context prompting while using only 0.4% of the original contexts. These findings highlight InfiniteICL’s potential to enhance the scalability and efficiency of LLMs by breaking the limitations of conventional context window sizes.

arxiv情報

著者 Bowen Cao,Deng Cai,Wai Lam
発行日 2025-04-03 08:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation はコメントを受け付けていません

Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries

要約

自動車のインターネット(IoV)は、高度な侵入検知システムを必要とする可能性のある困難なサイバーセキュリティ攻撃に直面する可能性があり、迅速な開発と対応システムが必要となる。本研究では、IoVの脅威検知環境で使用される機械学習モデルに求められる速度と効率に焦点を当て、従来のCPUベースの実装(scikit-learn)と比較したGPUアクセラレーションライブラリ(cuML)の性能上の利点を調査する。実施された包括的な評価では、3つの異なるIoVセキュリティデータセット(OTIDS、GIDS、CICIoV2024)に対して、4つの機械学習アプローチ(ランダムフォレスト、KNN、ロジスティック回帰、XGBoost)が採用されています。その結果、GPUアクセラレーションによる実装では、従来のCPU処理と比較して、学習時間が最大159分の1に短縮され、予測速度が最大95倍高速化されるなど、計算効率が劇的に向上することが実証されました。この驚くべき性能の飛躍的向上により、研究者やセキュリティ専門家は、今日のコネクテッド・ビークル・ネットワークにおける緊急のリアルタイム・セキュリティ要求に応える、より高速で効果的な脅威検知システムの構築にGPUアクセラレーションを活用できるようになります。

要約(オリジナル)

The Internet of Vehicles (IoV) may face challenging cybersecurity attacks that may require sophisticated intrusion detection systems, necessitating a rapid development and response system. This research investigates the performance advantages of GPU-accelerated libraries (cuML) compared to traditional CPU-based implementations (scikit-learn), focusing on the speed and efficiency required for machine learning models used in IoV threat detection environments. The comprehensive evaluations conducted employ four machine learning approaches (Random Forest, KNN, Logistic Regression, XGBoost) across three distinct IoV security datasets (OTIDS, GIDS, CICIoV2024). Our findings demonstrate that GPU-accelerated implementations dramatically improved computational efficiency, with training times reduced by a factor of up to 159 and prediction speeds accelerated by up to 95 times compared to traditional CPU processing, all while preserving detection accuracy. This remarkable performance breakthrough empowers researchers and security specialists to harness GPU acceleration for creating faster, more effective threat detection systems that meet the urgent real-time security demands of today’s connected vehicle networks.

arxiv情報

著者 Furkan Çolhak,Hasan Coşkun,Tsafac Nkombong Regine Cyrille,Tedi Hoxa,Mert İlhan Ecevit,Mehmet Nafiz Aydın
発行日 2025-04-03 08:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.LG | Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries はコメントを受け付けていません

GSR4B: Biomass Map Super-Resolution with Sentinel-1/2 Guidance

要約

大規模かつ高い時空間分解能での正確な地上バイオマス(AGB)マッピングは、気候モデリングから生物多様性評価、持続可能なサプライチェーンモニタリングまで、幅広い用途に不可欠である。現在、きめ細かいAGBマッピングは、通常、地域スケールに限定された高価な空中レーザースキャニング取得キャンペーンに依存している。ESAのCCIマップのようなイニシアチブは、多様なスペースボーン・センサーから、より粗い解像度でグローバルなバイオマス情報を生成しようとしている。全球的な高解像度(HR)マッピングを可能にするために、ESAのSentinel-1/2画像のようなHR衛星観測からAGBを回帰することを提案する研究がいくつかある。我々は、HR衛星観測と既存の低解像度(LR)バイオマス製品の両方を活用することで、HR AGB推定に取り組む新しい方法を提案する。我々はこの問題をガイド付き超解像(GSR)と名付け、100$から10$ mの解像度のLRバイオマスマップ(ソース)を、補助的なHR共登録衛星画像(ガイド)を用いてアップサンプリングすることを目指す。公開されているBioMasstersデータセットを用いて、衛星画像からの直接回帰に対して、超解像AGBマップをガイダンスの有無で比較した。マルチスケールガイダンス(MSG)は、回帰($-780$ t/ha RMSE)と知覚($+2.0$ dB PSNR)の両指標において直接回帰を上回り、大きな計算オーバーヘッドを伴わずに、高バイオマス値をよりよく捉えることができる。興味深いことに、元々設計されたRGB+Depthの設定とは異なり、我々のAGB GSRアプローチが最も良いパフォーマンスを示したのは、ガイド画像のテクスチャを最も保存したものであった。我々の結果は、スケールでの正確なHRバイオマスマッピングのためにGSRフレームワークを採用する強力なケースとなる。我々のコードとモデルの重みは公開されている(https://github.com/kaankaramanofficial/GSR4B)。

要約(オリジナル)

Accurate Above-Ground Biomass (AGB) mapping at both large scale and high spatio-temporal resolution is essential for applications ranging from climate modeling to biodiversity assessment, and sustainable supply chain monitoring. At present, fine-grained AGB mapping relies on costly airborne laser scanning acquisition campaigns usually limited to regional scales. Initiatives such as the ESA CCI map attempt to generate global biomass products from diverse spaceborne sensors but at a coarser resolution. To enable global, high-resolution (HR) mapping, several works propose to regress AGB from HR satellite observations such as ESA Sentinel-1/2 images. We propose a novel way to address HR AGB estimation, by leveraging both HR satellite observations and existing low-resolution (LR) biomass products. We cast this problem as Guided Super-Resolution (GSR), aiming at upsampling LR biomass maps (sources) from $100$ to $10$ m resolution, using auxiliary HR co-registered satellite images (guides). We compare super-resolving AGB maps with and without guidance, against direct regression from satellite images, on the public BioMassters dataset. We observe that Multi-Scale Guidance (MSG) outperforms direct regression both for regression ($-780$ t/ha RMSE) and perception ($+2.0$ dB PSNR) metrics, and better captures high-biomass values, without significant computational overhead. Interestingly, unlike the RGB+Depth setting they were originally designed for, our best-performing AGB GSR approaches are those that most preserve the guide image texture. Our results make a strong case for adopting the GSR framework for accurate HR biomass mapping at scale. Our code and model weights are made publicly available (https://github.com/kaankaramanofficial/GSR4B).

arxiv情報

著者 Kaan Karaman,Yuchang Jiang,Damien Robert,Vivien Sainte Fare Garnot,Maria João Santos,Jan Dirk Wegner
発行日 2025-04-03 09:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | GSR4B: Biomass Map Super-Resolution with Sentinel-1/2 Guidance はコメントを受け付けていません

Beyond Non-Expert Demonstrations: Outcome-Driven Action Constraint for Offline Reinforcement Learning

要約

我々は、現実的なデータ、特に最適でない行動方針によって収集された非専門家データを用いたオフライン強化学習の課題に取り組む。この問題に取り組むために、我々はOutcome-Driven Action Flexibility (ODAF)と呼ばれる新しい手法を導入し、行動ポリシーの経験的行動分布への依存を低減することで、それらの悪いデモンストレーションの悪影響を低減することを目指す。具体的には、オフラインデータに基づく行動の尤度のみに依存するのではなく、その結果が安全要件を満たすかどうか、つまり状態サポート領域内に留まるかどうかに従って行動を評価することにより、分布シフトに対処する新しい保守的報酬メカニズムを開発する。理論的な正当性の他に、広く使用されているMuJoCoと様々な迷路ベンチマークに関する経験的な証拠を提供し、不確実性の定量化技術を用いて実装された我々のODAF法が、現実的な非専門的データから学習するエージェントの能力を向上させながら、「軌道のつなぎ目」を改善するために、未知の遷移を効果的に許容することを実証する。

要約(オリジナル)

We address the challenge of offline reinforcement learning using realistic data, specifically non-expert data collected through sub-optimal behavior policies. Under such circumstance, the learned policy must be safe enough to manage distribution shift while maintaining sufficient flexibility to deal with non-expert (bad) demonstrations from offline data.To tackle this issue, we introduce a novel method called Outcome-Driven Action Flexibility (ODAF), which seeks to reduce reliance on the empirical action distribution of the behavior policy, hence reducing the negative impact of those bad demonstrations.To be specific, a new conservative reward mechanism is developed to deal with distribution shift by evaluating actions according to whether their outcomes meet safety requirements – remaining within the state support area, rather than solely depending on the actions’ likelihood based on offline data.Besides theoretical justification, we provide empirical evidence on widely used MuJoCo and various maze benchmarks, demonstrating that our ODAF method, implemented using uncertainty quantification techniques, effectively tolerates unseen transitions for improved ‘trajectory stitching,’ while enhancing the agent’s ability to learn from realistic non-expert data.

arxiv情報

著者 Ke Jiang,Wen Jiang,Yao Li,Xiaoyang Tan
発行日 2025-04-03 01:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | Beyond Non-Expert Demonstrations: Outcome-Driven Action Constraint for Offline Reinforcement Learning はコメントを受け付けていません