Explicitly Modeling Subcortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness

要約

物体認識のために訓練された畳み込みニューラルネットワーク(CNN)は、高いタスク性能を達成するが、生物学的視覚と比較すると、様々な視覚的摂動や領域外の画像の下で脆弱性を示し続ける。先行研究では、標準的なCNNと、霊長類の一次視覚野(V1)を模倣したフロントエンド・ブロック(VOneBlock)を結合することで、モデル全体の頑健性が向上することが実証されている。VOneBlockのアーキテクチャは神経科学の計算モデルに由来しており、複数の実験的研究によって報告された皮質下反応との整合を最大化するようにパラメータ化されている。最適化されていなくても、SubcorticalBlockとVOneBlockを組み合わせることで、ほとんどの標準的なV1ベンチマークでV1アライメントが改善され、クラス外受容野現象がよりよくモデル化された。さらに、EVNetsはより強い出現形状バイアスを示し、敵対的摂動、一般的な破損、ドメインシフトを含む頑健性評価の総合ベンチマークで、基本CNNアーキテクチャを8.5%上回る。最後に、EVNetsを最新のデータ増強技術と組み合わせることで、EVNetsがさらに改善されることを示し、頑健性ベンチマークにおいて、単独のデータ増強アプローチの性能を7.3%上回る。この結果は、生物学をよりよく模倣するためのアーキテクチャの変更と、訓練ベースの機械学習アプローチとの間の相補的な利点を明らかにしている。

要約(オリジナル)

Convolutional neural networks (CNNs) trained on object recognition achieve high task performance but continue to exhibit vulnerability under a range of visual perturbations and out-of-domain images, when compared with biological vision. Prior work has demonstrated that coupling a standard CNN with a front-end block (VOneBlock) that mimics the primate primary visual cortex (V1) can improve overall model robustness. Expanding on this, we introduce Early Vision Networks (EVNets), a new class of hybrid CNNs that combine the VOneBlock with a novel SubcorticalBlock, whose architecture draws from computational models in neuroscience and is parameterized to maximize alignment with subcortical responses reported across multiple experimental studies. Without being optimized to do so, the assembly of the SubcorticalBlock with the VOneBlock improved V1 alignment across most standard V1 benchmarks, and better modeled extra-classical receptive field phenomena. In addition, EVNets exhibit stronger emergent shape bias and overperform the base CNN architecture by 8.5% on an aggregate benchmark of robustness evaluations, including adversarial perturbations, common corruptions, and domain shifts. Finally, we show that EVNets can be further improved when paired with a state-of-the-art data augmentation technique, surpassing the performance of the isolated data augmentation approach by 7.3% on our robustness benchmark. This result reveals complementary benefits between changes in architecture to better mimic biology and training-based machine learning approaches.

arxiv情報

著者 Lucas Piper,Arlindo L. Oliveira,Tiago Marques
発行日 2025-06-03 17:13:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, q-bio.NC | Explicitly Modeling Subcortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness はコメントを受け付けていません

DPO Learning with LLMs-Judge Signal for Computer Use Agents

要約

コンピュータ・ユース・エージェント(CUA)は、グラフィカル・ユーザー・インターフェース(GUI)と自動的に対話し、タスクを完了するシステムである。CUAは、大規模な視覚言語モデル(VLM)の出現により大きな進歩を遂げた。しかし、これらのエージェントは、一般的にクラウドベースの推論に依存しており、特に個人デバイス上で動作する場合、かなりの計算量を必要とするため、プライバシーとスケーラビリティに関する重大な懸念が生じる。本研究では、ローカルマシンのみで動作する軽量な視覚言語モデルを開発することで、プライバシー保護とリソース効率に優れたエージェントへの一歩を踏み出す。このコンパクトなエージェントを訓練するために、我々はLLM-as-Judgeフレームワークを導入し、合成された相互作用の軌跡を自動的に評価し、フィルタリングすることで、人間によるアノテーションなしに強化学習のための高品質なデータを生成する。OS-Worldベンチマークでの実験により、我々の微調整されたローカルモデルが既存のベースラインを上回ることが実証され、プライベートで効率的かつ一般化可能なGUIエージェントへの有望な道筋が浮き彫りにされた。

要約(オリジナル)

Computer use agents (CUA) are systems that automatically interact with graphical user interfaces (GUIs) to complete tasks. CUA have made significant progress with the advent of large vision-language models (VLMs). However, these agents typically rely on cloud-based inference with substantial compute demands, raising critical privacy and scalability concerns, especially when operating on personal devices. In this work, we take a step toward privacy-preserving and resource-efficient agents by developing a lightweight vision-language model that runs entirely on local machines. To train this compact agent, we introduce an LLM-as-Judge framework that automatically evaluates and filters synthetic interaction trajectories, producing high-quality data for reinforcement learning without human annotation. Experiments on the OS-World benchmark demonstrate that our fine-tuned local model outperforms existing baselines, highlighting a promising path toward private, efficient, and generalizable GUI agents.

arxiv情報

著者 Man Luo,David Cobbley,Xin Su,Shachar Rosenman,Vasudev Lal,Shao-Yen Tseng,Phillip Howard
発行日 2025-06-03 17:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | DPO Learning with LLMs-Judge Signal for Computer Use Agents はコメントを受け付けていません

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

要約

対照的言語-画像事前学習は、各モダリティ用の異なるエンコーダを介して、テキストと画像のペアの特徴を共通の潜在空間に揃える。このアプローチは、いくつかのゼロショットタスクにおいて素晴らしい性能を達成する一方で、マルチモーダル入力、すなわち画像とテキストを単一の特徴ベクトルにエンコードすることをネイティブに扱うことはできない。救済策として、ユニモーダルエンコーダによって抽出された特徴をマージするために、追加モジュールを使用することが一般的です。本研究では、マルチモーダルエンベッディングのための代替アーキテクチャであるFuseLIPを紹介する。離散画像トークン化器の最近の進歩を活用し、テキストと画像のトークンの拡張語彙で動作する単一の変換器モデルの使用を提案する。この早期融合アプローチにより、異なるモダリティが符号化の各深度において相互作用し、一般的な後期融合と比較してより豊かな表現を得ることができる。マルチモーダルな事前学習と評価のために新しいデータセットを収集し、マルチモーダルエンコーダモデルに挑戦的なタスクを設計する。FuseLIPが、VQAやテキストガイド付き画像変換検索のようなマルチモーダル埋め込みタスクにおいて、他のアプローチを凌駕する一方、ユニモーダルタスクではベースラインと同等であることを示す。

要約(オリジナル)

Contrastive language-image pre-training aligns the features of text-image pairs in a common latent space via distinct encoders for each modality. While this approach achieves impressive performance in several zero-shot tasks, it cannot natively handle multimodal inputs, i.e., encoding image and text into a single feature vector. As a remedy, it is common practice to use additional modules to merge the features extracted by the unimodal encoders. In this work, we present FuseLIP, an alternative architecture for multimodal embedding. Leveraging recent progress in discrete image tokenizers, we propose to use a single transformer model which operates on an extended vocabulary of text and image tokens. This early fusion approach allows the different modalities to interact at each depth of encoding and obtain richer representations compared to common late fusion. We collect new datasets for multimodal pre-training and evaluation, designing challenging tasks for multimodal encoder models. We show that FuseLIP outperforms other approaches in multimodal embedding tasks such as VQA and text-guided image transformation retrieval, while being comparable to baselines on unimodal tasks.

arxiv情報

著者 Christian Schlarmann,Francesco Croce,Nicolas Flammarion,Matthias Hein
発行日 2025-06-03 17:27:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens はコメントを受け付けていません

Can’t See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs

要約

マルチモーダル大規模言語モデル(MLLM)は、テキストと画像の両方を介したインタラクションを可能にすることで、従来の言語モデルの能力を拡張してきた。しかし、これらのモデルの安全性を確保することは、特にマルチモーダルコンテンツが安全か安全でないかを正確に識別する上で、重要な課題として残っている。この論文では、MMSafeAwareを紹介する。MMSafeAwareは、慎重にキュレートされた1500の画像とプロンプトのペアを用いて、29の安全シナリオにわたってMLLMを評価するように設計された、初の包括的なマルチモーダル安全認識ベンチマークである。MMSafeAwareは、安全でないコンテンツを正しく識別し、有用性を阻害する過敏性を回避するモデルの能力を評価するために、安全でないサブセットと安全すぎるサブセットの両方を含んでいる。MMSafeAwareを用いて広く使われている9つのMLLMを評価した結果、現在のモデルは十分に安全ではなく、しばしば過敏であることが明らかになった。例えば、GPT-4Vは安全でない入力の36.1%を安全であると誤分類し、良性の入力の59.9%を安全でないと誤分類している。さらに、安全認識を向上させるための3つの方法-プロンプティングベースのアプローチ、視覚的コントラストデコーディング、視覚中心の推論微調整-を検討したが、いずれも満足のいく性能は得られなかった。我々の発見は、ロバストな安全認識を持つMLLMの開発における深い課題を浮き彫りにし、この分野における更なる研究の必要性を強調している。今後の研究を促進するため、コードとデータはすべて公開される予定である。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have expanded the capabilities of traditional language models by enabling interaction through both text and images. However, ensuring the safety of these models remains a significant challenge, particularly in accurately identifying whether multimodal content is safe or unsafe-a capability we term safety awareness. In this paper, we introduce MMSafeAware, the first comprehensive multimodal safety awareness benchmark designed to evaluate MLLMs across 29 safety scenarios with 1500 carefully curated image-prompt pairs. MMSafeAware includes both unsafe and over-safety subsets to assess models abilities to correctly identify unsafe content and avoid over-sensitivity that can hinder helpfulness. Evaluating nine widely used MLLMs using MMSafeAware reveals that current models are not sufficiently safe and often overly sensitive; for example, GPT-4V misclassifies 36.1% of unsafe inputs as safe and 59.9% of benign inputs as unsafe. We further explore three methods to improve safety awareness-prompting-based approaches, visual contrastive decoding, and vision-centric reasoning fine-tuning-but find that none achieve satisfactory performance. Our findings highlight the profound challenges in developing MLLMs with robust safety awareness, underscoring the need for further research in this area. All the code and data will be publicly available to facilitate future research.

arxiv情報

著者 Wenxuan Wang,Xiaoyuan Liu,Kuiyi Gao,Jen-tse Huang,Youliang Yuan,Pinjia He,Shuai Wang,Zhaopeng Tu
発行日 2025-06-03 17:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Can’t See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs はコメントを受け付けていません

EgoVLM: Policy Optimization for Egocentric Video Understanding

要約

ウェアラブルカメラや自律型エージェントなど、新たな具現化AIアプリケーションは、一人称ビデオストリームからのロバストな推論の必要性を強調している。我々は、EgoVLMを紹介する。EgoVLMは、特に、自分中心のビデオコンテキスト内で視覚的理解と空間的-時間的推論を統合するように設計された視覚言語モデルである。EgoVLMはGroup Relative Policy Optimization (GRPO)によって微調整され、人間のような推論ステップにモデルの出力を合わせるように適応された強化学習手法である。DeepSeek R1-Zeroのアプローチに従い、CoT(chain-of-thought)データ上で教師ありの微調整フェーズを行わずに、RLを用いて直接チューニングを行う。EgoVLMを自己中心的なビデオ質問応答ベンチマークで評価し、ドメインに特化したトレーニングが汎用のVLMよりも性能を大幅に向上させることを示す。EgoVLM-3Bは、非CoTのエゴセントリックデータのみで学習され、EgoSchemaベンチマークにおいて、Qwen2.5-VLの3Bと7Bの基本モデルをそれぞれ14.33と13.87ポイント上回る精度を示した。推論トレースを明示的に生成することで、EgoVLMは解釈可能性を高め、下流のアプリケーションに適している。さらに、強化学習の最適化を導くために、顕著なフレーム選択を組み込んだ、新しいキーフレームベースの報酬を紹介する。この報酬の定式化は、時間的に根拠のある自我中心的推論における将来の研究のための有望な道を開く。

要約(オリジナル)

Emerging embodied AI applications, such as wearable cameras and autonomous agents, have underscored the need for robust reasoning from first person video streams. We introduce EgoVLM, a vision-language model specifically designed to integrate visual comprehension and spatial-temporal reasoning within egocentric video contexts. EgoVLM is fine-tuned via Group Relative Policy Optimization (GRPO), a reinforcement learning method adapted to align model outputs with human-like reasoning steps. Following DeepSeek R1-Zero’s approach, we directly tune using RL without any supervised fine-tuning phase on chain-of-thought (CoT) data. We evaluate EgoVLM on egocentric video question answering benchmarks and show that domain-specific training substantially improves performance over general-purpose VLMs. Our EgoVLM-3B, trained exclusively on non-CoT egocentric data, outperforms the base Qwen2.5-VL 3B and 7B models by 14.33 and 13.87 accuracy points on the EgoSchema benchmark, respectively. By explicitly generating reasoning traces, EgoVLM enhances interpretability, making it well-suited for downstream applications. Furthermore, we introduce a novel keyframe-based reward that incorporates salient frame selection to guide reinforcement learning optimization. This reward formulation opens a promising avenue for future exploration in temporally grounded egocentric reasoning.

arxiv情報

著者 Ashwin Vinod,Shrey Pandit,Aditya Vavre,Linshen Liu
発行日 2025-06-03 17:28:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | EgoVLM: Policy Optimization for Egocentric Video Understanding はコメントを受け付けていません

Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step

要約

Stable Diffusion や DALL-E 3 のようなテキストベースの画像生成モデルは、コンテンツ制作やパブリッシングのワークフローにおいて大きな可能性を秘めており、近年注目されています。多様で鮮明な画像を生成する顕著な能力にもかかわらず、虐待、暴力、ポルノなどの有害なコンテンツの生成を防ぐために多大な努力が払われている。既存のモデルの安全性を評価するために、我々はChain-of-Jailbreak(CoJ)攻撃と呼ばれる新しい脱獄手法を導入し、段階的な編集プロセスを通じて画像生成モデルを危険にさらす。具体的には、1回のプロンプトでセーフガードを回避できない悪意のあるクエリに対して、クエリを意図的に複数のサブクエリに分解する。そして画像生成モデルは、これらのサブクエリに基づいて画像を生成し、繰り返し編集するよう促される。我々のCoJ攻撃手法の有効性を評価するため、9つの安全シナリオ、3種類の編集操作、3つの編集要素を含む包括的なデータセットCoJ-Benchを構築した。GPT-4V、GPT-4o、Gemini 1.5およびGemini 1.5 Proによって提供される4つの広く使用されている画像生成サービスに対する実験では、我々のCoJ攻撃手法が60%以上のケースでモデルのセーフガードを回避することに成功し、他の脱獄手法(すなわち14%)を大幅に上回ることが実証された。さらに、我々のCoJ攻撃手法に対するこれらのモデルの安全性を高めるために、我々はまた、CoJ攻撃の95%以上を成功裏に防御することができる効果的なプロンプトベースの方法、Think Twice Promptingを提案する。我々は、AIの安全性研究を促進するために、データセットとコードを公開する。

要約(オリジナル)

Text-based image generation models, such as Stable Diffusion and DALL-E 3, hold significant potential in content creation and publishing workflows, making them the focus in recent years. Despite their remarkable capability to generate diverse and vivid images, considerable efforts are being made to prevent the generation of harmful content, such as abusive, violent, or pornographic material. To assess the safety of existing models, we introduce a novel jailbreaking method called Chain-of-Jailbreak (CoJ) attack, which compromises image generation models through a step-by-step editing process. Specifically, for malicious queries that cannot bypass the safeguards with a single prompt, we intentionally decompose the query into multiple sub-queries. The image generation models are then prompted to generate and iteratively edit images based on these sub-queries. To evaluate the effectiveness of our CoJ attack method, we constructed a comprehensive dataset, CoJ-Bench, encompassing nine safety scenarios, three types of editing operations, and three editing elements. Experiments on four widely-used image generation services provided by GPT-4V, GPT-4o, Gemini 1.5 and Gemini 1.5 Pro, demonstrate that our CoJ attack method can successfully bypass the safeguards of models for over 60% cases, which significantly outperforms other jailbreaking methods (i.e., 14%). Further, to enhance these models’ safety against our CoJ attack method, we also propose an effective prompting-based method, Think Twice Prompting, that can successfully defend over 95% of CoJ attack. We release our dataset and code to facilitate the AI safety research.

arxiv情報

著者 Wenxuan Wang,Kuiyi Gao,Youliang Yuan,Jen-tse Huang,Qiuzhi Liu,Shuai Wang,Wenxiang Jiao,Zhaopeng Tu
発行日 2025-06-03 17:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV, cs.MM | Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step はコメントを受け付けていません

DyTact: Capturing Dynamic Contacts in Hand-Object Manipulation

要約

AIキャラクタアニメーション、XR、ロボット工学において、手と物体の動的な接触を再現することは、リアルな操作のために不可欠であるが、オクルージョンの多さ、複雑な表面の詳細、既存のキャプチャ技術の限界のために、依然として困難である。本論文では、非侵入的な方法で手とオブジェクトの操作における動的接触を正確にキャプチャするためのマーカーレスキャプチャ手法であるDyTactを紹介する。この手法では、複雑な操作をモデル化するために、2Dガウスサーフェルに基づく動的で多関節な表現を活用します。これらのサーフェルをMANOメッシュに結合することで、DyTactはテンプレートモデルの誘導バイアスを利用し、最適化を安定化・高速化します。精密化モジュールは、時間依存の高周波変形に対応し、接触ガイド適応サンプリング戦略は、接触領域でサーフェルの密度を選択的に増加させ、激しいオクルージョンを処理します。DyTactは、最先端の動的接触推定精度を達成するだけでなく、高速な最適化と効率的なメモリ使用で動作しながら、新規ビュー合成品質を大幅に向上させることが、広範な実験により実証されている。プロジェクトページ: https://oliver-cong02.github.io/DyTact.github.io/ .

要約(オリジナル)

Reconstructing dynamic hand-object contacts is essential for realistic manipulation in AI character animation, XR, and robotics, yet it remains challenging due to heavy occlusions, complex surface details, and limitations in existing capture techniques. In this paper, we introduce DyTact, a markerless capture method for accurately capturing dynamic contact in hand-object manipulations in a non-intrusive manner. Our approach leverages a dynamic, articulated representation based on 2D Gaussian surfels to model complex manipulations. By binding these surfels to MANO meshes, DyTact harnesses the inductive bias of template models to stabilize and accelerate optimization. A refinement module addresses time-dependent high-frequency deformations, while a contact-guided adaptive sampling strategy selectively increases surfel density in contact regions to handle heavy occlusion. Extensive experiments demonstrate that DyTact not only achieves state-of-the-art dynamic contact estimation accuracy but also significantly improves novel view synthesis quality, all while operating with fast optimization and efficient memory usage. Project Page: https://oliver-cong02.github.io/DyTact.github.io/ .

arxiv情報

著者 Xiaoyan Cong,Angela Xing,Chandradeep Pokhariya,Rao Fu,Srinath Sridhar
発行日 2025-06-03 17:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | DyTact: Capturing Dynamic Contacts in Hand-Object Manipulation はコメントを受け付けていません

ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions

要約

非剛体運動、カメラの視点移動、物体の変形、人間の関節運動、複雑なインタラクションを反映した指示による画像の編集は、コンピュータビジョンにおいて、挑戦的でありながら未開拓の問題を提起している。既存のアプローチやデータセットは、主に静的なシーンや剛体変換に焦点を当てており、動的な動きを含む表現的な編集を扱う能力が制限されている。このギャップに対処するために、非剛体運動に重点を置いた、指示に基づく画像編集のための包括的なフレームワークであるByteMorphを紹介する。ByteMorphは、大規模なデータセットであるByteMorph-6Mと、ByteMorpherと名付けられた拡散変換器(DiT)に基づいて構築された強力なベースラインモデルから構成される。ByteMorph-6Mには、トレーニング用の600万を超える高解像度画像編集ペアが含まれ、入念にキュレーションされた評価ベンチマークByteMorph-Benchも含まれている。両者とも、多様な環境、人物、物体のカテゴリにわたる、多種多様な非剛体モーションをキャプチャしている。このデータセットは、多様性、リアルさ、意味の一貫性を確保するために、モーションガイドによるデータ生成、レイヤー合成技術、自動キャプション付けを用いて構築されている。さらに、学術的および商業的な領域からの最近の指示ベースの画像編集手法の包括的な評価を行う。

要約(オリジナル)

Editing images with instructions to reflect non-rigid motions, camera viewpoint shifts, object deformations, human articulations, and complex interactions, poses a challenging yet underexplored problem in computer vision. Existing approaches and datasets predominantly focus on static scenes or rigid transformations, limiting their capacity to handle expressive edits involving dynamic motion. To address this gap, we introduce ByteMorph, a comprehensive framework for instruction-based image editing with an emphasis on non-rigid motions. ByteMorph comprises a large-scale dataset, ByteMorph-6M, and a strong baseline model built upon the Diffusion Transformer (DiT), named ByteMorpher. ByteMorph-6M includes over 6 million high-resolution image editing pairs for training, along with a carefully curated evaluation benchmark ByteMorph-Bench. Both capture a wide variety of non-rigid motion types across diverse environments, human figures, and object categories. The dataset is constructed using motion-guided data generation, layered compositing techniques, and automated captioning to ensure diversity, realism, and semantic coherence. We further conduct a comprehensive evaluation of recent instruction-based image editing methods from both academic and commercial domains.

arxiv情報

著者 Di Chang,Mingdeng Cao,Yichun Shi,Bo Liu,Shengqu Cai,Shijie Zhou,Weilin Huang,Gordon Wetzstein,Mohammad Soleymani,Peng Wang
発行日 2025-06-03 17:39:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions はコメントを受け付けていません

Revisiting Continuity of Image Tokens for Cross-domain Few-shot Learning

要約

Vision Transformer(ViT)は、一般的な領域での大規模な事前学習により目覚ましい成功を収めているが、学習データが乏しい下流の遠距離の領域に適用する際には、まだ課題に直面している。すなわち、ViTにおいて画像トークンの連続性を乱す(すなわち、画素がパッチ間をスムーズに移動しないようにする)と、一般(ソース)ドメインでは顕著な性能低下をもたらすが、下流のターゲットドメインではわずかな性能低下しかもたらさない。このことは、大きなドメインギャップの下でのViTの汎化における画像トークンの連続性の役割に疑問を投げかけるものである。本論文では、この現象を掘り下げて解釈する。その結果、連続性はViTがより大きな空間パターンを学習する際に役立つことがわかった。一方、極端な領域間ギャップでは、各パッチ内のより小さなパターンしか伝達されないことが示唆される。この解釈に基づき、我々はさらに、画像トークンの連続性をより良く破壊し、モデルが大きなパターンに依存せず、より小さなパターンに依存するように促す、CDFSLのためのシンプルかつ効果的な手法を提案する。広範な実験により、ドメインギャップを減少させ、最先端技術を凌駕する我々の手法の有効性を示す。コードとモデルはhttps://github.com/shuaiyi308/ReCIT。

要約(オリジナル)

Vision Transformer (ViT) has achieved remarkable success due to its large-scale pretraining on general domains, but it still faces challenges when applying it to downstream distant domains that have only scarce training data, which gives rise to the Cross-Domain Few-Shot Learning (CDFSL) task. Inspired by Self-Attention’s insensitivity to token orders, we find an interesting phenomenon neglected in current works: disrupting the continuity of image tokens (i.e., making pixels not smoothly transited across patches) in ViT leads to a noticeable performance decline in the general (source) domain but only a marginal decrease in downstream target domains. This questions the role of image tokens’ continuity in ViT’s generalization under large domain gaps. In this paper, we delve into this phenomenon for an interpretation. We find continuity aids ViT in learning larger spatial patterns, which are harder to transfer than smaller ones, enlarging domain distances. Meanwhile, it implies that only smaller patterns within each patch could be transferred under extreme domain gaps. Based on this interpretation, we further propose a simple yet effective method for CDFSL that better disrupts the continuity of image tokens, encouraging the model to rely less on large patterns and more on smaller ones. Extensive experiments show the effectiveness of our method in reducing domain gaps and outperforming state-of-the-art works. Codes and models are available at https://github.com/shuaiyi308/ReCIT.

arxiv情報

著者 Shuai Yi,Yixiong Zou,Yuhua Li,Ruixuan Li
発行日 2025-06-03 17:40:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Revisiting Continuity of Image Tokens for Cross-domain Few-shot Learning はコメントを受け付けていません

Zero-Shot Tree Detection and Segmentation from Aerial Forest Imagery

要約

リモートセンシング画像から個々の樹木を大規模に抽出することは、特に気候変動やその他の環境要因が世界中の森林景観を急速に変化させる中、生態学的研究の進歩にとって極めて重要である。現在のRGB樹木のセグメンテーション手法は、ラベル付けされた樹木データセットを用いて特殊な機械学習モデルをトレーニングすることに依存している。このような学習ベースのアプローチは、正確であれば手作業によるデータ収集よりも優れているが、既存のモデルは依然として、拡張が困難な学習データに依存している。本論文では、最先端の画像セグメンテーションモデルであるSegment Anything Model 2 (SAM2)を、個々の木の検出とセグメンテーションのためにゼロショットで使用する有効性を調査する。(1)ゼロショットセグメンテーション、(2)既存の樹木検出モデルからの予測をプロンプトとして使用したゼロショット転送。我々の結果は、SAM2が印象的な汎化能力を持つだけでなく、ドメイン内のラベル付きデータで訓練された特殊な手法と自然な相乗効果を形成できることを示唆している。我々は、大規模な事前学習済みモデルをリモートセンシングの問題に適用することが、将来の進歩のための有望な道であることを発見した。我々のコードは、https://github.com/open-forest-observatory/tree-detection-framework。

要約(オリジナル)

Large-scale delineation of individual trees from remote sensing imagery is crucial to the advancement of ecological research, particularly as climate change and other environmental factors rapidly transform forest landscapes across the world. Current RGB tree segmentation methods rely on training specialized machine learning models with labeled tree datasets. While these learning-based approaches can outperform manual data collection when accurate, the existing models still depend on training data that’s hard to scale. In this paper, we investigate the efficacy of using a state-of-the-art image segmentation model, Segment Anything Model 2 (SAM2), in a zero-shot manner for individual tree detection and segmentation. We evaluate a pretrained SAM2 model on two tasks in this domain: (1) zero-shot segmentation and (2) zero-shot transfer by using predictions from an existing tree detection model as prompts. Our results suggest that SAM2 not only has impressive generalization capabilities, but also can form a natural synergy with specialized methods trained on in-domain labeled data. We find that applying large pretrained models to problems in remote sensing is a promising avenue for future progress. We make our code available at: https://github.com/open-forest-observatory/tree-detection-framework.

arxiv情報

著者 Michelle Chen,David Russell,Amritha Pallavoor,Derek Young,Jane Wu
発行日 2025-06-03 17:44:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Zero-Shot Tree Detection and Segmentation from Aerial Forest Imagery はコメントを受け付けていません