SteROI-D: System Design and Mapping for Stereo Depth Inference on Regions of Interest

要約

機械学習アルゴリズムにより、高品質のステレオ深度推定は、拡張および仮想現実(AR/VR)デバイスで実行されます。
ただし、フル画像処理スタック全体でのエネルギー消費量は、ステレオ深度アルゴリズムがバッテリー制限デバイスで効果的に実行されるのを防ぎます。
このペーパーでは、マッピング方法論と組み合わせた完全なステレオ深度システムであるSteroi-Dを紹介します。
Steroi-Dは、エネルギーを節約するために、システムレベルで地域の地域(ROI)と時間的スパースを悪用します。
Steroi-Dの柔軟で不均一なコンピューティングファブリックは、多様なROIをサポートします。
重要なことに、動的なROIを効果的に処理するための体系的なマッピング方法論を導入し、それによりエネルギー節約を最大化することです。
これらの手法を使用して、当社の28NMプロトタイプSteroi-D設計は、ベースラインASICと比較して最大4.35倍のシステムエネルギーを削減します。

要約(オリジナル)

Machine learning algorithms have enabled high quality stereo depth estimation to run on Augmented and Virtual Reality (AR/VR) devices. However, high energy consumption across the full image processing stack prevents stereo depth algorithms from running effectively on battery-limited devices. This paper introduces SteROI-D, a full stereo depth system paired with a mapping methodology. SteROI-D exploits Region-of-Interest (ROI) and temporal sparsity at the system level to save energy. SteROI-D’s flexible and heterogeneous compute fabric supports diverse ROIs. Importantly, we introduce a systematic mapping methodology to effectively handle dynamic ROIs, thereby maximizing energy savings. Using these techniques, our 28nm prototype SteROI-D design achieves up to 4.35x reduction in total system energy compared to a baseline ASIC.

arxiv情報

著者 Jack Erhardt,Ziang Li,Reid Pinkham,Andrew Berkovich,Zhengya Zhang
発行日 2025-02-13 17:39:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CV | SteROI-D: System Design and Mapping for Stereo Depth Inference on Regions of Interest はコメントを受け付けていません

Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model

要約

条件付き拡散モデルの最近の進歩により、現実的なトーキングフェイスビデオを生成することが有望であることが示されていますが、一貫したヘッドの動き、同期した表情、および長期にわたる正確なリップ同期を達成することに課題があります。
これらに対処するために、\ textbf {m} otion-priors \ textbf {c} onditional \ textbf {d} iffusion \ textbf {m} odel(\ textbf {mcdm})を紹介します。
モーション予測を強化し、時間的一貫性を確保するため。
モデルは、3つの重要な要素で構成されています。(1)履歴フレームとアイデンティティとコンテキストを保持するための参照フレームを組み込んだアーカイブクリップモーション優先権。
(2)頭の動き、唇同期、および表現の正確な予測のためにマルチモーダル因果関係をキャプチャする現在のクリップ運動拡散モデル。
(3)モーション機能を動的に保存および更新することにより、エラーの蓄積を軽減するメモリ効率の高い時間的注意メカニズム。
また、10の言語にわたって200時間以上の映像の多言語コレクションである\ textbf {talkingface-wild}データセットをリリースします。
実験結果は、長期的な話し方フェイス生成のアイデンティティと運動の継続性を維持する上でMCDMの有効性を示しています。
コード、モデル、およびデータセットが公開されます。

要約(オリジナル)

Recent advances in conditional diffusion models have shown promise for generating realistic TalkingFace videos, yet challenges persist in achieving consistent head movement, synchronized facial expressions, and accurate lip synchronization over extended generations. To address these, we introduce the \textbf{M}otion-priors \textbf{C}onditional \textbf{D}iffusion \textbf{M}odel (\textbf{MCDM}), which utilizes both archived and current clip motion priors to enhance motion prediction and ensure temporal consistency. The model consists of three key elements: (1) an archived-clip motion-prior that incorporates historical frames and a reference frame to preserve identity and context; (2) a present-clip motion-prior diffusion model that captures multimodal causality for accurate predictions of head movements, lip sync, and expressions; and (3) a memory-efficient temporal attention mechanism that mitigates error accumulation by dynamically storing and updating motion features. We also release the \textbf{TalkingFace-Wild} dataset, a multilingual collection of over 200 hours of footage across 10 languages. Experimental results demonstrate the effectiveness of MCDM in maintaining identity and motion continuity for long-term TalkingFace generation. Code, models, and datasets will be publicly available.

arxiv情報

著者 Fei Shen,Cong Wang,Junyao Gao,Qin Guo,Jisheng Dang,Jinhui Tang,Tat-Seng Chua
発行日 2025-02-13 17:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model はコメントを受け付けていません

Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community

要約

オブジェクトの検出、特にオープンボキャブラリーオブジェクトの検出は、環境監視、自然災害評価、土地利用計画など、地球科学に重要な役割を果たします。
ただし、主に自然世界の画像で訓練された既存のオープンボキャブラリー検出器は、重要なデータドメインギャップのためにリモートセンシング画像に一般化するのに苦労しています。
したがって、このペーパーは、リモートセンシングコミュニティでのオープンボキャブラリーオブジェクト検出の開発を進めることを目的としています。
これを達成するために、私たちはまず、地球上の新しい概念を検出することを目的として、地球上の何かを見つけるようにタスクを再定式化します。
次に、幅広いカテゴリカバレッジを備えた最初の大規模リモートセンシングオブジェクト検出データセットであるLAE-1Mを作成する最大10個のリモートセンシングデータセットを収集、自動解決、統合するLAE-Labelエンジンを開発しました。
LAE-1Mを使用して、動的語彙構造(DVC)および視覚誘導テキストプロンプト学習(VISGT)モジュールを特徴とするLAEタスクの最初のオープンボキャブラリーファンデーションオブジェクト検出器であるLae-Dinoモデルをさらに提案して訓練します。
DVCは、各トレーニングバッチの語彙を動的に構築し、Visgtは視覚的な機能をセマンティックスペースにマッピングし、テキスト機能を強化します。
確立されたリモートセンシングベンチマークDior、DoTAV2.0、および新しく導入された80クラスのLAE-80Cベンチマークに関する実験を包括的に実施しています。
結果は、LAE-1Mデータセットの利点とLae-Dinoメソッドの有効性を示しています。

要約(オリジナル)

Object detection, particularly open-vocabulary object detection, plays a crucial role in Earth sciences, such as environmental monitoring, natural disaster assessment, and land-use planning. However, existing open-vocabulary detectors, primarily trained on natural-world images, struggle to generalize to remote sensing images due to a significant data domain gap. Thus, this paper aims to advance the development of open-vocabulary object detection in remote sensing community. To achieve this, we first reformulate the task as Locate Anything on Earth (LAE) with the goal of detecting any novel concepts on Earth. We then developed the LAE-Label Engine which collects, auto-annotates, and unifies up to 10 remote sensing datasets creating the LAE-1M – the first large-scale remote sensing object detection dataset with broad category coverage. Using the LAE-1M, we further propose and train the novel LAE-DINO Model, the first open-vocabulary foundation object detector for the LAE task, featuring Dynamic Vocabulary Construction (DVC) and Visual-Guided Text Prompt Learning (VisGT) modules. DVC dynamically constructs vocabulary for each training batch, while VisGT maps visual features to semantic space, enhancing text features. We comprehensively conduct experiments on established remote sensing benchmark DIOR, DOTAv2.0, as well as our newly introduced 80-class LAE-80C benchmark. Results demonstrate the advantages of the LAE-1M dataset and the effectiveness of the LAE-DINO method.

arxiv情報

著者 Jiancheng Pan,Yanxing Liu,Yuqian Fu,Muyuan Ma,Jiahao Li,Danda Pani Paudel,Luc Van Gool,Xiaomeng Huang
発行日 2025-02-13 18:01:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community はコメントを受け付けていません

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

要約

具体化されたエージェントを作成するためにマルチモーダルの大手言語モデル(MLLM)を活用すると、実際のタスクに取り組むための有望な道が提供されます。
言語中心の具体化されたエージェントはかなりの注目を集めていますが、MLLMベースの具体化されたエージェントは、包括的な評価フレームワークがないため、既に採用されていないままです。
このギャップを埋めるために、ビジョン駆動型の具体化されたエージェントを評価するために設計された広範なベンチマークであるEmbodiedBenchを紹介します。
具体化されたベンチ機能:(1)高レベルのセマンティックタスク(家庭)から原子作用(ナビゲーションや操作など)を含む低レベルのタスクに至るまで、4つの環境にわたる1,128のテストタスクの多様なセット。
(2)Commonsenseの推論、複雑な指導の理解、空間認識、視覚認識、長期計画などの重要なエージェント機能を評価する6つの細心の注意を払ってキュレーションされたサブセット。
広範な実験を通じて、EmbodiedBench内の13の主要な独自およびオープンソースMLLMを評価しました。
私たちの調査結果は、MLLMSが高レベルのタスクで優れているが、低レベルの操作に苦労していることを明らかにしています。
EmbodiedBenchは、既存の課題を強調するだけでなく、MLLMベースの具体化されたエージェントを進めるための貴重な洞察を提供する多面的な標準化された評価プラットフォームを提供します。
私たちのコードは、https://embodiedbench.github.ioで入手できます。

要約(オリジナル)

Leveraging Multi-modal Large Language Models (MLLMs) to create embodied agents offers a promising avenue for tackling real-world tasks. While language-centric embodied agents have garnered substantial attention, MLLM-based embodied agents remain underexplored due to the lack of comprehensive evaluation frameworks. To bridge this gap, we introduce EmbodiedBench, an extensive benchmark designed to evaluate vision-driven embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing tasks across four environments, ranging from high-level semantic tasks (e.g., household) to low-level tasks involving atomic actions (e.g., navigation and manipulation); and (2) six meticulously curated subsets evaluating essential agent capabilities like commonsense reasoning, complex instruction understanding, spatial awareness, visual perception, and long-term planning. Through extensive experiments, we evaluated 13 leading proprietary and open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel at high-level tasks but struggle with low-level manipulation, with the best model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a multifaceted standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance MLLM-based embodied agents. Our code is available at https://embodiedbench.github.io.

arxiv情報

著者 Rui Yang,Hanyang Chen,Junyu Zhang,Mark Zhao,Cheng Qian,Kangrui Wang,Qineng Wang,Teja Venkat Koripella,Marziyeh Movahedi,Manling Li,Heng Ji,Huan Zhang,Tong Zhang
発行日 2025-02-13 18:11:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents はコメントを受け付けていません

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

要約

この作品は、画像とビデオの両方を密集した理解のための最初の統一モデルであるSA2VAを示しています。
多くの場合、特定のモダリティやタスクに限定される既存のマルチモーダル大型言語モデルとは異なり、SA2VAは、セグメンテーションや会話の紹介など、最小限のワンショット命令調整を含む幅広い画像およびビデオタスクをサポートします。
SA2VAは、基礎ビデオセグメンテーションモデルであるSAM-2を、高度なビジョン言語モデルであるLlavaと組み合わせて、テキスト、画像、ビデオを共有LLMトークンスペースに統合します。
LLMを使用して、SA2VAは、SAM-2を正確なマスクの生成に導く命令トークンを生成し、静的視覚コンテンツと動的視覚コンテンツの両方の接地されたマルチモーダルの理解を可能にします。
さらに、モデルのパフォーマンスを高めるように設計された複雑なビデオシーンに72Kを超えるオブジェクト式を含む自動ラベルデータセットであるRef-Savを紹介します。
また、複雑な環境でのビデオオブジェクトセグメンテーションを参照するベンチマークに、REF-SAVデータセットの2Kビデオオブジェクトを手動で検証します。
実験は、SA2VAが複数のタスク、特にビデオオブジェクトセグメンテーションを参照する際に最先端のタスクを達成し、複雑な現実世界のアプリケーションの可能性を強調することを示しています。

要約(オリジナル)

This work presents Sa2VA, the first unified model for dense grounded understanding of both images and videos. Unlike existing multi-modal large language models, which are often limited to specific modalities and tasks, Sa2VA supports a wide range of image and video tasks, including referring segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced vision-language model, and unifies text, image, and video into a shared LLM token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2 in producing precise masks, enabling a grounded, multi-modal understanding of both static and dynamic visual content. Additionally, we introduce Ref-SAV, an auto-labeled dataset containing over 72k object expressions in complex video scenes, designed to boost model performance. We also manually validate 2k video objects in the Ref-SAV datasets to benchmark referring video object segmentation in complex environments. Experiments show that Sa2VA achieves state-of-the-art across multiple tasks, particularly in referring video object segmentation, highlighting its potential for complex real-world applications.

arxiv情報

著者 Haobo Yuan,Xiangtai Li,Tao Zhang,Zilong Huang,Shilin Xu,Shunping Ji,Yunhai Tong,Lu Qi,Jiashi Feng,Ming-Hsuan Yang
発行日 2025-02-13 18:14:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos はコメントを受け付けていません

Self-Calibrating Gaussian Splatting for Large Field of View Reconstruction

要約

このペーパーでは、カメラパラメーター、レンズの歪み、3Dガウス表現を共同で最適化し、正確で効率的なシーンの再構築を可能にする自己調節フレームワークを紹介します。
特に、この手法により、広角レンズで撮影された大きな視野(FOV)画像からの高品質のシーンの再構築を可能にし、シーンを少数の画像からモデル化できます。
私たちのアプローチでは、反転可能な残差ネットワークと明示的なグリッドを組み合わせたハイブリッドネットワークを使用して、複雑なレンズ歪みをモデル化するための新しい方法を紹介します。
この設計は、最適化プロセスを効果的に正規化し、従来のカメラモデルよりも高い精度を達成します。
さらに、解像度を犠牲にしたり、歪みアーティファクトを導入したりせずに、大規模なFOV画像をサポートするためのキューブベースの再サンプリング戦略を提案します。
私たちの方法は、さまざまなカメラレンズの歪みに適応できるガウスのスプラッティングの高速なラスター化と互換性があり、合成データセットと実際のデータセットの両方で最先端のパフォーマンスを示しています。

要約(オリジナル)

In this paper, we present a self-calibrating framework that jointly optimizes camera parameters, lens distortion and 3D Gaussian representations, enabling accurate and efficient scene reconstruction. In particular, our technique enables high-quality scene reconstruction from Large field-of-view (FOV) imagery taken with wide-angle lenses, allowing the scene to be modeled from a smaller number of images. Our approach introduces a novel method for modeling complex lens distortions using a hybrid network that combines invertible residual networks with explicit grids. This design effectively regularizes the optimization process, achieving greater accuracy than conventional camera models. Additionally, we propose a cubemap-based resampling strategy to support large FOV images without sacrificing resolution or introducing distortion artifacts. Our method is compatible with the fast rasterization of Gaussian Splatting, adaptable to a wide variety of camera lens distortion, and demonstrates state-of-the-art performance on both synthetic and real-world datasets.

arxiv情報

著者 Youming Deng,Wenqi Xian,Guandao Yang,Leonidas Guibas,Gordon Wetzstein,Steve Marschner,Paul Debevec
発行日 2025-02-13 18:15:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Self-Calibrating Gaussian Splatting for Large Field of View Reconstruction はコメントを受け付けていません

Diffusing DeBias: a Recipe for Turning a Bug into a Feature

要約

分類タスクにおける深い学習モデルの有効性は、特定の属性とターゲットラベルの間に強い偽の相関を含む場合、モデル予測で回復不可能なバイアスをもたらす可能性のあるトレーニングデータの品質と量によって挑戦されることがよくあります。
これらのバイアスへの取り組みは、特に実際のシナリオでは、モデルの一般化と信頼を改善する上で重要です。
このホワイトペーパーでは、拡散モデルの固有のバイアス学習傾向を活用しながら、モデルの紛争における一般的な方法のプラグインとして機能する新しいアプローチである拡散するDebias(DDB)を提示します。
私たちのアプローチは、条件付き拡散モデルを活用して、バイアスアンプモデルのトレーニングに使用される合成バイアスアライメント画像を生成し、異なる監視なしの債務アプローチで補助方法としてさらに採用されます。
また、このタイプの技術に典型的なトレーニングセットの暗記の一般的な問題に取り組む提案された方法は、複数のベンチマークデータセットの現在の最先端を大きなマージンで打ち負かし、その可能性を実証します。
ディープラーニングアプリケーションにおけるデータセットバイアスの取り組み。

要約(オリジナル)

Deep learning model effectiveness in classification tasks is often challenged by the quality and quantity of training data which, whenever containing strong spurious correlations between specific attributes and target labels, can result in unrecoverable biases in model predictions. Tackling these biases is crucial in improving model generalization and trust, especially in real-world scenarios. This paper presents Diffusing DeBias (DDB), a novel approach acting as a plug-in for common methods in model debiasing while exploiting the inherent bias-learning tendency of diffusion models. Our approach leverages conditional diffusion models to generate synthetic bias-aligned images, used to train a bias amplifier model, to be further employed as an auxiliary method in different unsupervised debiasing approaches. Our proposed method, which also tackles the common issue of training set memorization typical of this type of tech- niques, beats current state-of-the-art in multiple benchmark datasets by significant margins, demonstrating its potential as a versatile and effective tool for tackling dataset bias in deep learning applications.

arxiv情報

著者 Massimiliano Ciranni,Vito Paolo Pastore,Roberto Di Via,Enzo Tartaglione,Francesca Odone,Vittorio Murino
発行日 2025-02-13 18:17:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.4 | Diffusing DeBias: a Recipe for Turning a Bug into a Feature はコメントを受け付けていません

Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery

要約

Vision Transformers(VIT)は最近、コンピュータービジョンの分野で新しい研究の波をもたらしました。
これらのモデルは、画像分類とセグメンテーションで特にうまく機能しています。
セマンティックおよびインスタンスのセグメンテーションに関する研究は、新しいアーキテクチャの導入とともに加速しており、その成功の背後にあるVITアーキテクチャまたは注意メカニズムのいずれかに基づいて、ISAIDデータセットの上位20ベンチマークの80%以上が加速しています。
このペーパーでは、ISAIDデータセットでのリモートセンシング航空画像のセマンティックセグメンテーションにVITを使用(または使用しない)3つの重要な要因のヒューリスティックな比較に焦点を当てています。
この研究中に観察された実験結果は、3つの目的に基づいて分析されました。
最初に、エントロピーまたはクラス表現損失を最小限に抑えながら、組合(MIOU)スコアとサイコロのスコアを超える平均交差点を最大化するために、加重融合損失関数の使用を研究しました。
第二に、MIOU、DICEスコア、トレーニング効率、および推論時間に基づいた一般的なUNET畳み込みニューラルネットワーク(CNN)と、VITベースのセマンティックセグメンテーションモデルであるMetaのMaskFormerの転送学習を比較しました。
第三に、現在の最先端のセグメンテーションモデルと比較して、2つのモデル間のトレードオフを調べました。
新しい組み合わせた加重損失関数が、VITを使用した転送学習と比較してCNNモデルのパフォーマンスを大幅に向上させることを示しています。
この実装のコードは、https://github.com/ashimdahal/vit-vs-cnn-image-segmentationにあります。

要約(オリジナル)

Vision Transformers (ViT) have recently brought a new wave of research in the field of computer vision. These models have performed particularly well in image classification and segmentation. Research on semantic and instance segmentation has accelerated with the introduction of the new architecture, with over 80% of the top 20 benchmarks for the iSAID dataset based on either the ViT architecture or the attention mechanism behind its success. This paper focuses on the heuristic comparison of three key factors of using (or not using) ViT for semantic segmentation of remote sensing aerial images on the iSAID dataset. The experimental results observed during this research were analyzed based on three objectives. First, we studied the use of a weighted fused loss function to maximize the mean Intersection over Union (mIoU) score and Dice score while minimizing entropy or class representation loss. Second, we compared transfer learning on Meta’s MaskFormer, a ViT-based semantic segmentation model, against a generic UNet Convolutional Neural Network (CNN) based on mIoU, Dice scores, training efficiency, and inference time. Third, we examined the trade-offs between the two models in comparison to current state-of-the-art segmentation models. We show that the novel combined weighted loss function significantly boosts the CNN model’s performance compared to transfer learning with ViT. The code for this implementation can be found at: https://github.com/ashimdahal/ViT-vs-CNN-Image-Segmentation.

arxiv情報

著者 Ashim Dahal,Saydul Akbar Murad,Nick Rahimi
発行日 2025-02-13 18:20:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery はコメントを受け付けていません

Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering

要約

この調査では、ビデオ品質の7つの重要なカテゴリにわたってゼロショット分類のためのGPTベースのモデルを調査および最適化することにより、ビデオコンテンツ分類における業界の課題に取り組んでいます。
迅速な最適化とポリシーの改良を通じてGPTのパフォーマンスを改善するための新しいアプローチを提供し、複雑なポリシーを単純化することで誤動が大幅に減少することを示しています。
さらに、従来の単一プロムプト方法よりも優れた新しい分解 – 凝集ベースのプロンプトエンジニアリング手法を導入します。
実質的な業界の問題で実施されたこれらの実験は、思慮深い迅速な設計が追加の微調整なしでGPTのパフォーマンスを大幅に向上させることができることを示しており、業界のさまざまなドメインにわたってビデオ分類システムを改善するための効果的でスケーラブルなソリューションを提供します。

要約(オリジナル)

In this study, we tackle industry challenges in video content classification by exploring and optimizing GPT-based models for zero-shot classification across seven critical categories of video quality. We contribute a novel approach to improving GPT’s performance through prompt optimization and policy refinement, demonstrating that simplifying complex policies significantly reduces false negatives. Additionally, we introduce a new decomposition-aggregation-based prompt engineering technique, which outperforms traditional single-prompt methods. These experiments, conducted on real industry problems, show that thoughtful prompt design can substantially enhance GPT’s performance without additional finetuning, offering an effective and scalable solution for improving video classification systems across various domains in industry.

arxiv情報

著者 Mark Beliaev,Victor Yang,Madhura Raju,Jiachen Sun,Xinghai Hu
発行日 2025-02-13 18:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering はコメントを受け付けていません

GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis

要約

地球軌道衛星の連続動作は、リモートセンシング(RS)画像の広大で成長し続けるアーカイブを生成します。
Natural Languageは、そのようなアーカイブからのデータにアクセス、クエリ、および解釈するための直感的なインターフェイスを提示します。
ただし、既存のビジョン言語モデル(VLM)は、主にWebスクレイプされたノイズの多い画像テキストデータでトレーニングされており、Rsの特殊なドメインへの限定された暴露を示しています。
一般的に使用されるデータセットには詳細で科学的に正確なテキストの説明が欠けており、代わりに日付や場所などの属性のみを強調するため、RS固有のタスクのパフォーマンスが低下します。
このクリティカルギャップを埋めるために、マルチスケール、マルチセンサー、マルチモーダルRS画像分析用に設計された新しいデータセットであるGaiaを紹介します。
Gaiaは、さまざまな空間解像度に関連する多様なRSモダリティを表す、205,150の細心の注意を払ってキュレーションされたRS画像テキストペアで構成されています。
RSの既存のビジョン言語データセットとは異なり、GAIAはさまざまな範囲のRSアプリケーションのキャプチャに焦点を当てており、環境の変化、自然災害、およびその他のさまざまな動的現象に関するユニークな情報を提供します。
データセットは、世界中の空間的および一時的にバランスの取れた分布を提供し、過去25年間を観測のバランスの取れた時間分布でカバーします。
GAIAの構造には、2段階のプロセスが含まれていました。(1)評判の良いRS関連のソースからの画像のターゲットWebスクレイピングと付随するテキスト、および(2)慎重に作成されたプロンプトを使用して各画像の5つの高品質で科学的に接地された合成キャプションの生成
GPT-4oの高度なビジョン言語機能を活用します。
クリップモデルとBLIP2モデルの微調整を含む当社の広範な実験は、GAIAがRS画像分類、クロスモーダル検索、画像キャプションのタスクのパフォーマンスを大幅に改善することを示しています。

要約(オリジナル)

The continuous operation of Earth-orbiting satellites generates vast and ever-growing archives of Remote Sensing (RS) images. Natural language presents an intuitive interface for accessing, querying, and interpreting the data from such archives. However, existing Vision-Language Models (VLMs) are predominantly trained on web-scraped, noisy image-text data, exhibiting limited exposure to the specialized domain of RS. This deficiency results in poor performance on RS-specific tasks, as commonly used datasets often lack detailed, scientifically accurate textual descriptions and instead emphasize solely on attributes like date and location. To bridge this critical gap, we introduce GAIA, a novel dataset designed for multi-scale, multi-sensor, and multi-modal RS image analysis. GAIA comprises of 205,150 meticulously curated RS image-text pairs, representing a diverse range of RS modalities associated to different spatial resolutions. Unlike existing vision-language datasets in RS, GAIA specifically focuses on capturing a diverse range of RS applications, providing unique information about environmental changes, natural disasters, and various other dynamic phenomena. The dataset provides a spatially and temporally balanced distribution, spanning across the globe, covering the last 25 years with a balanced temporal distribution of observations. GAIA’s construction involved a two-stage process: (1) targeted web-scraping of images and accompanying text from reputable RS-related sources, and (2) generation of five high-quality, scientifically grounded synthetic captions for each image using carefully crafted prompts that leverage the advanced vision-language capabilities of GPT-4o. Our extensive experiments, including fine-tuning of CLIP and BLIP2 models, demonstrate that GAIA significantly improves performance on RS image classification, cross-modal retrieval and image captioning tasks.

arxiv情報

著者 Angelos Zavras,Dimitrios Michail,Xiao Xiang Zhu,Begüm Demir,Ioannis Papoutsis
発行日 2025-02-13 18:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis はコメントを受け付けていません