Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport

要約

画像内の複数の新規クラスを識別することは、オープンボキャブラリーマルチラベル認識として知られており、コンピュータービジョンにおける困難な作業です。
最近の研究では、Clipなどの強力なビジョン言語モデルの転送を調査しています。
ただし、これらのアプローチは2つの重要な課題に直面しています。(1)クリップのローカルセマンティクスは、そのグローバルなトレーニング前の目標のために破壊され、信頼できない地域の予測をもたらします。
(2)画像領域と候補ラベル間の一致するプロパティは無視されており、代わりに平均プーリングなどの素朴な特徴集計に依存しており、これは無関係な領域からの偽の予測につながります。
この論文では、上記の問題に効果的に対処する新しいフレームワークであるRAM(回復と一致)を提示します。
最初の問題に取り組むために、はしごローカルアダプター(LLA)を提案して、ローカル地域に再焦点を合わせ、メモリに優しい方法でローカルセマンティクスを回復します。
2番目の号では、タスクを最適な輸送問題として策定することにより、無意味なマッチングを非GTラベルに抑制するために、知識制限の最適輸送(KCOT)を提案します。
その結果、RAMは3つの異なるドメインからさまざまなデータセットで最新のパフォーマンスを達成し、既存の方法を高める大きな可能性を示しています。
コード:https://github.com/erictan7/ram。

要約(オリジナル)

Identifying multiple novel classes in an image, known as open-vocabulary multi-label recognition, is a challenging task in computer vision. Recent studies explore the transfer of powerful vision-language models such as CLIP. However, these approaches face two critical challenges: (1) The local semantics of CLIP are disrupted due to its global pre-training objectives, resulting in unreliable regional predictions. (2) The matching property between image regions and candidate labels has been neglected, relying instead on naive feature aggregation such as average pooling, which leads to spurious predictions from irrelevant regions. In this paper, we present RAM (Recover And Match), a novel framework that effectively addresses the above issues. To tackle the first problem, we propose Ladder Local Adapter (LLA) to enforce refocusing on local regions, recovering local semantics in a memory-friendly way. For the second issue, we propose Knowledge-Constrained Optimal Transport (KCOT) to suppress meaningless matching to non-GT labels by formulating the task as an optimal transport problem. As a result, RAM achieves state-of-the-art performance on various datasets from three distinct domains, and shows great potential to boost the existing methods. Code: https://github.com/EricTan7/RAM.

arxiv情報

著者 Hao Tan,Zichang Tan,Jun Li,Ajian Liu,Jun Wan,Zhen Lei
発行日 2025-03-19 15:33:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport はコメントを受け付けていません

Data-Free Dynamic Compression of CNNs for Tractable Efficiency

要約

リソース制約のデバイスでの畳み込みニューラルネットワーク(CNNS)の計算コストを削減するために、構造化された剪定アプローチは、精度を大幅に低下させることなく、浮動小数点操作(FLOPS)を下げることで有望であることを示しています。
ただし、ほとんどの方法では、保持された精度とフロップの減少との間の合理的なトレードオフを実現し、計算オーバーヘッドを追加し、トレーニングデータを利用できるようにするために、微調整または特定のトレーニング手順が必要です。
この目的のために、トレーニングや微調整なしでネットワークのテスト時間推論コストを即座に削減する、データフリーのプラグアンドプレイの畳み込みモジュールである急いで(扱いやすい効率のためのハッシュ)を提案します。
私たちのアプローチでは、局所に敏感なハッシュ(LSH)を利用して、潜在的な特徴マップのチャネル次元の冗長性を検出し、同様のチャネルを圧縮して入力とフィルターの深さを同時に減らし、より安価な畳み込みをもたらします。
人気のあるビジョンベンチマークCIFAR-10とImagenetでのアプローチを実証します。ここでは、フロップが46.72%減少し、HasteモジュールのCIFAR-10のResNet34の畳み込みモジュールを交換することにより、精度が1.25%減少します。

要約(オリジナル)

To reduce the computational cost of convolutional neural networks (CNNs) on resource-constrained devices, structured pruning approaches have shown promise in lowering floating-point operations (FLOPs) without substantial drops in accuracy. However, most methods require fine-tuning or specific training procedures to achieve a reasonable trade-off between retained accuracy and reduction in FLOPs, adding computational overhead and requiring training data to be available. To this end, we propose HASTE (Hashing for Tractable Efficiency), a data-free, plug-and-play convolution module that instantly reduces a network’s test-time inference cost without training or fine-tuning. Our approach utilizes locality-sensitive hashing (LSH) to detect redundancies in the channel dimension of latent feature maps, compressing similar channels to reduce input and filter depth simultaneously, resulting in cheaper convolutions. We demonstrate our approach on the popular vision benchmarks CIFAR-10 and ImageNet, where we achieve a 46.72% reduction in FLOPs with only a 1.25% loss in accuracy by swapping the convolution modules in a ResNet34 on CIFAR-10 for our HASTE module.

arxiv情報

著者 Lukas Meiner,Jens Mehnert,Alexandru Paul Condurache
発行日 2025-03-19 15:35:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Data-Free Dynamic Compression of CNNs for Tractable Efficiency はコメントを受け付けていません

FlowTok: Flowing Seamlessly Across Text and Image Tokens

要約

異なるモダリティを橋渡しすることは、クロスモダリティ世代の中心にあります。
従来のアプローチは、テキストモダリティをガウスノイズからターゲット画像モダリティまで徐々に導くコンディショニングシグナルとして扱いますが、フローマッチングを通じてテキストと画像のモダリティの間でよりシンプルなパラダイムダイレクトの進化を探ります。
これには、両方のモダリティを共有潜在スペースに投影する必要があります。これは、本質的に異なる表現のために重要な課題をもたらします。テキストは非常にセマンティックで1Dトークンとしてエンコードされますが、画像は空間的に冗長で2D潜在的な埋め込みとして表されます。
これに対処するために、画像をコンパクトな1Dトークン表現にエンコードすることにより、テキストと画像をシームレスに流れる最小限のフレームワークであるFlowtokを紹介します。
以前の方法と比較して、この設計により、256の画像解像度で潜在的な空間サイズが3.3倍になり、複雑なコンディショニングメカニズムまたはノイズスケジューリングの必要性が排除されます。
さらに、Flowtokは、同じ定式化の下で自然に画像間生成に拡張されます。
Compact 1Dトークンを中心とした合理化されたアーキテクチャにより、FlowTOKは非常にメモリ効率が高く、トレーニングリソースが大幅に少なくなり、最先端のモデルに匹敵するパフォーマンスを提供しながら、より速いサンプリング速度を達成します。
コードはhttps://github.com/bytedance/1d-tokenizerで入手できます。

要約(オリジナル)

Bridging different modalities lies at the heart of cross-modality generation. While conventional approaches treat the text modality as a conditioning signal that gradually guides the denoising process from Gaussian noise to the target image modality, we explore a much simpler paradigm-directly evolving between text and image modalities through flow matching. This requires projecting both modalities into a shared latent space, which poses a significant challenge due to their inherently different representations: text is highly semantic and encoded as 1D tokens, whereas images are spatially redundant and represented as 2D latent embeddings. To address this, we introduce FlowTok, a minimal framework that seamlessly flows across text and images by encoding images into a compact 1D token representation. Compared to prior methods, this design reduces the latent space size by 3.3x at an image resolution of 256, eliminating the need for complex conditioning mechanisms or noise scheduling. Moreover, FlowTok naturally extends to image-to-text generation under the same formulation. With its streamlined architecture centered around compact 1D tokens, FlowTok is highly memory-efficient, requires significantly fewer training resources, and achieves much faster sampling speeds-all while delivering performance comparable to state-of-the-art models. Code will be available at https://github.com/bytedance/1d-tokenizer.

arxiv情報

著者 Ju He,Qihang Yu,Qihao Liu,Liang-Chieh Chen
発行日 2025-03-19 15:39:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FlowTok: Flowing Seamlessly Across Text and Image Tokens はコメントを受け付けていません

TruthLens:A Training-Free Paradigm for DeepFake Detection

要約

高度なAIモデルによって生成された合成画像の増殖は、操作された視覚コンテンツを特定して理解する上で重要な課題をもたらします。
現在の偽の画像検出方法は、精度に焦点を当てながら解釈可能性を無視することが多いバイナリ分類モデルに主に依存しており、ユーザーが画像が本物または偽物と見なされる理由について明確な洞察を与えません。
このギャップを埋めるために、視覚的な質問(VQA)タスクとしてディープファークの検出を再考する新しいトレーニングなしのフレームワークであるTruthLensを紹介します。
TruthLensは、最先端の大型ビジョン言語モデル(LVLMS)を利用して視覚的アーティファクトを観察および説明し、これをGPT-4などの大規模な言語モデル(LLM)の推論能力と組み合わせて、証拠を分析して情報に基づいた決定に集約します。
マルチモーダルアプローチを採用することにより、TruthLensは視覚的およびセマンティックな推論をシームレスに統合して、画像を実際のまたは偽物として分類するだけでなく、その決定について解釈可能な説明を提供します。
この透明性は信頼を高め、合成含有量を信号するアーティファクトに対する貴重な洞察を提供します。
広範な評価は、Truthlensが従来の方法を上回り、説明可能性に強力な重点を維持しながら、挑戦的なデータセットの精度を達成することを示しています。
Truthlensは、推論主導型のプロセスとしてDeepFake検出を再構成することにより、合成媒体との闘いにおける新しいパラダイムを確立し、最先端のパフォーマンスと解釈可能性を組み合わせて、視覚的な偽情報の増大する脅威に対処します。

要約(オリジナル)

The proliferation of synthetic images generated by advanced AI models poses significant challenges in identifying and understanding manipulated visual content. Current fake image detection methods predominantly rely on binary classification models that focus on accuracy while often neglecting interpretability, leaving users without clear insights into why an image is deemed real or fake. To bridge this gap, we introduce TruthLens, a novel training-free framework that reimagines deepfake detection as a visual question-answering (VQA) task. TruthLens utilizes state-of-the-art large vision-language models (LVLMs) to observe and describe visual artifacts and combines this with the reasoning capabilities of large language models (LLMs) like GPT-4 to analyze and aggregate evidence into informed decisions. By adopting a multimodal approach, TruthLens seamlessly integrates visual and semantic reasoning to not only classify images as real or fake but also provide interpretable explanations for its decisions. This transparency enhances trust and provides valuable insights into the artifacts that signal synthetic content. Extensive evaluations demonstrate that TruthLens outperforms conventional methods, achieving high accuracy on challenging datasets while maintaining a strong emphasis on explainability. By reframing deepfake detection as a reasoning-driven process, TruthLens establishes a new paradigm in combating synthetic media, combining cutting-edge performance with interpretability to address the growing threats of visual disinformation.

arxiv情報

著者 Ritabrata Chakraborty,Rajatsubhra Chakraborty,Ali Khaleghi Rahimian,Thomas MacDougall
発行日 2025-03-19 15:41:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TruthLens:A Training-Free Paradigm for DeepFake Detection はコメントを受け付けていません

Leveraging Perfect Multimodal Alignment and Gaussian Assumptions for Cross-modal Transfer

要約

Multimodal Alignmentは、同じベクトルに同じ概念マップを表す2つのモダリティを表すジョイント潜在ベクトル空間を構築することを目的としています。
これを逆の問題として定式化し、特定の条件下で完全なアライメントを達成できることを示します。
次に、クロスモーダル転送と呼ばれるアライメントの特定の応用に対処します。
監視されていないクロスモーダル転送は、1つのモダリティで訓練されたモデルを活用して、新しいモダリティにラベル付けされた微調整なしに、別のモダリティに推論を実行することを目的としています。
セマンティッククラスが潜在空間のガウスの混合物として表されていると仮定すると、表現空間からデータポイントを各モダリティを表す異なる部分空間に投影することにより、クロスモーダル転送がどのように実行できるかを示します。
合成マルチモーダルガウスデータに関する実験では、完璧なアライメントおよびクロスモーダル転送方法の有効性が検証されています。
これらの発見が、完全なアライメントの応用と、クロスモーダル学習のためのガウスモデルの使用のさらなる調査を刺激することを願っています。

要約(オリジナル)

Multimodal alignment aims to construct a joint latent vector space where two modalities representing the same concept map to the same vector. We formulate this as an inverse problem and show that under certain conditions perfect alignment can be achieved. We then address a specific application of alignment referred to as cross-modal transfer. Unsupervised cross-modal transfer aims to leverage a model trained with one modality to perform inference on another modality, without any labeled fine-tuning on the new modality. Assuming that semantic classes are represented as a mixture of Gaussians in the latent space, we show how cross-modal transfer can be performed by projecting the data points from the representation space onto different subspaces representing each modality. Our experiments on synthetic multimodal Gaussian data verify the effectiveness of our perfect alignment and cross-modal transfer method. We hope these findings inspire further exploration of the applications of perfect alignment and the use of Gaussian models for cross-modal learning.

arxiv情報

著者 Abhi Kamboj,Minh N. Do
発行日 2025-03-19 15:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.SP | Leveraging Perfect Multimodal Alignment and Gaussian Assumptions for Cross-modal Transfer はコメントを受け付けていません

SemEval-2025 Task 1: AdMIRe — Advancing Multimodal Idiomaticity Representation

要約

慣用的な表現は、NLPにユニークな課題を提示します。その意味は、構成要素の単語から直接推測されないことが多いためです。
最近の大規模な言語モデル(LLMS)における進歩にもかかわらず、慣用度は堅牢なセマンティック表現に対する重要な障害のままです。
SEMVAL-2025のデータセットとタスクを提示します。タスク1:賞賛(マルチモーダルの慣用度表現の進歩)。これは、マルチモーダルコンテキストおよび複数の言語での慣用表現を解釈するモデルの能力を評価および改善するようコミュニティに挑戦します。
参加者は、2つのサブタスクで競い合いました。慣用的または文字通りの意味との調整に基づいて画像をランキングし、次の画像をシーケンスで予測します。
最も効果的な方法は、混合物の設定で前処理されたLLMSおよび視覚言語モデルを活用することにより、人間レベルのパフォーマンスを達成しました。

要約(オリジナル)

Idiomatic expressions present a unique challenge in NLP, as their meanings are often not directly inferable from their constituent words. Despite recent advancements in Large Language Models (LLMs), idiomaticity remains a significant obstacle to robust semantic representation. We present datasets and tasks for SemEval-2025 Task 1: AdMiRe (Advancing Multimodal Idiomaticity Representation), which challenges the community to assess and improve models’ ability to interpret idiomatic expressions in multimodal contexts and in multiple languages. Participants competed in two subtasks: ranking images based on their alignment with idiomatic or literal meanings, and predicting the next image in a sequence. The most effective methods achieved human-level performance by leveraging pretrained LLMs and vision-language models in mixture-of-experts settings, with multiple queries used to smooth over the weaknesses in these models’ representations of idiomaticity.

arxiv情報

著者 Thomas Pickard,Aline Villavicencio,Maggie Mi,Wei He,Dylan Phelps,Carolina Scarton,Marco Idiart
発行日 2025-03-19 15:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, I.2.7 | SemEval-2025 Task 1: AdMIRe — Advancing Multimodal Idiomaticity Representation はコメントを受け付けていません

Boosting HDR Image Reconstruction via Semantic Knowledge Transfer

要約

LDR画像が顕著な分解と欠落コンテンツを示すと、複数の低ダイナミックレンジ(LDR)画像から高いダイナミックレンジ(HDR)画像を回復することが困難になります。
シーン固有のセマンティックプライアーズを活用すると、大幅に劣化した地域を復元するための有望なソリューションが提供されます。
ただし、これらのプライアーは通常、SRGB標準ダイナミックレンジ(SDR)画像から抽出されます。ドメイン/フォーマットギャップは、HDRイメージングに適用する際に大きな課題をもたらします。
この問題に対処するために、既存のHDR再構成を強化するために、自己抵抗を介してSDRドメインから派生したセマンティック知識を転送する一般的なフレームワークを提案します。
具体的には、提案されたフレームワークでは、最初にSMNACT PRIORS Guided Reconstruction Model(SPGRM)を導入します。これは、SDR画像セマンティック知識を活用して、初期のHDR再構成結果の不適切な問題に対処します。
その後、ベースラインとSPGRMの間の外部出力を整列させ、セマンティック知識を備えた色とコンテンツ情報を制約する自己抵抗メカニズムを活用します。
さらに、内部機能のセマンティック知識を転送するために、セマンティックナレッジアラインメントモジュール(SKAM)を利用して、欠落しているセマンティックコンテンツを補完的なマスクで埋めます。
広範な実験は、我々の方法が既存の方法のHDRイメージング品質を大幅に改善できることを示しています。

要約(オリジナル)

Recovering High Dynamic Range (HDR) images from multiple Low Dynamic Range (LDR) images becomes challenging when the LDR images exhibit noticeable degradation and missing content. Leveraging scene-specific semantic priors offers a promising solution for restoring heavily degraded regions. However, these priors are typically extracted from sRGB Standard Dynamic Range (SDR) images, the domain/format gap poses a significant challenge when applying it to HDR imaging. To address this issue, we propose a general framework that transfers semantic knowledge derived from SDR domain via self-distillation to boost existing HDR reconstruction. Specifically, the proposed framework first introduces the Semantic Priors Guided Reconstruction Model (SPGRM), which leverages SDR image semantic knowledge to address ill-posed problems in the initial HDR reconstruction results. Subsequently, we leverage a self-distillation mechanism that constrains the color and content information with semantic knowledge, aligning the external outputs between the baseline and SPGRM. Furthermore, to transfer the semantic knowledge of the internal features, we utilize a semantic knowledge alignment module (SKAM) to fill the missing semantic contents with the complementary masks. Extensive experiments demonstrate that our method can significantly improve the HDR imaging quality of existing methods.

arxiv情報

著者 Qingsen Yan,Tao Hu,Genggeng Chen,Wei Dong,Yanning Zhang
発行日 2025-03-19 16:01:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Boosting HDR Image Reconstruction via Semantic Knowledge Transfer はコメントを受け付けていません

EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models

要約

マルチモーダルの大規模な言語モデルは、複雑な推論タスクで強力なパフォーマンスを示していますが、展開中のモデルの複雑さ、特にリソース制限デバイスの複雑さに関連する重要な課題をもたらします。
このホワイトペーパーでは、マルチモーダル推論の効率を高めるために、大きな視覚言語モデルの自動剪定方法を提案します。
従来の方法は、元のモデルのトレーニングデータに依存して、さまざまなネットワークコンポーネントの適切な剪定比を選択します。
ただし、これらの方法は、Webスケールのトレーニングコーパスによって引き起こされる手頃な検索コストのため、大きなビジョン言語モデルでは非現実的です。
対照的に、私たちのアプローチは、モデルの精度を維持しながら未知のトレーニングデータの一般化能力を最大化することにより、目的のプルーニングポリシーを検索するために少数のサンプルを活用して、大規模な視覚言語モデルの精度と効率の最適なトレードオフの達成を可能にします。
具体的には、構造リスク最小化原則を使用して、剪定戦略の一般化ギャップを策定します。
タスクのパフォーマンスと一般化機能の両方に基づいて、特定の検索スペース内の最適な剪定ポリシーを繰り返し検索し、ビジョンプロジェクターを最適化して、パフォーマンスの上限で検索スペースを進化させます。
ScienceQA、Vizwiz、MM-Vet、およびLlava-Benchデータセットに関する広範な実験を行い、視覚的な質問に応答するタスクを行います。
剪定ポリシー検索に64個のサンプルのみを使用して、EfficientLlavaはScienceQAで83.05%の精度を達成し、Llava-V1.5-7Bの密なモデルと比較して$ 1.8のスピードアップを達成します。

要約(オリジナル)

While multimodal large language models demonstrate strong performance in complex reasoning tasks, they pose significant challenges related to model complexity during deployment, especially for resource-limited devices. In this paper, we propose an automatic pruning method for large vision-language models to enhance the efficiency of multimodal reasoning. Conventional methods rely on the training data of the original model to select the proper pruning ratio for different network components. However, these methods are impractical for large vision-language models due to the unaffordable search costs caused by web-scale training corpus. In contrast, our approach only leverages a small number of samples to search for the desired pruning policy by maximizing its generalization ability on unknown training data while maintaining the model accuracy, which enables the achievement of an optimal trade-off between accuracy and efficiency for large visual language models. Specifically, we formulate the generalization gap of the pruning strategy using the structural risk minimization principle. Based on both task performance and generalization capability, we iteratively search for the optimal pruning policy within a given search space and optimize the vision projector to evolve the search space with higher upper bound of performance. We conduct extensive experiments on the ScienceQA, Vizwiz, MM-vet, and LLaVA-Bench datasets for the task of visual question answering. Using only 64 samples for pruning policy search, EfficientLLaVA achieves an accuracy of 83.05% on ScienceQA, along with a $\times$ 1.8 speedup compared to the dense LLaVA-v1.5-7B model.

arxiv情報

著者 Yinan Liang,Ziwei Wang,Xiuwei Xu,Jie Zhou,Jiwen Lu
発行日 2025-03-19 16:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models はコメントを受け付けていません

Safety at Scale: A Comprehensive Survey of Large Model Safety

要約

大規模な事前トレーニングによる学習と一般化における並外れた能力によって推進される大規模なモデルの急速な進歩は、人工知能(AI)の景観を形作りました。
これらのモデルは現在、会話型AI、推奨システム、自律運転、コンテンツ生成、医療診断、科学的発見など、幅広いアプリケーションの基礎となっています。
しかし、彼らの広範な展開はまた、それらを重大な安全リスクにさらし、堅牢性、信頼性、倫理的意味についての懸念を引き起こします。
この調査では、Vision Foundationモデル(VFMS)、大規模な言語モデル(LLM)、ビジョン言語前トレーニング(VLP)モデル、ビジョン言語モデル(VLMS)、拡散モデル(DMS)、および大規模モデルベースのエージェントをカバーする大規模モデルに関する現在の安全研究の系統的レビューを提供します。
私たちの貢献は次のように要約されています。(1)敵対的攻撃、データ中毒、バックドア攻撃、脱獄および迅速な注入攻撃、エネルギー遅延攻撃、データとモデルの抽出攻撃、および新たなエージェント固有の脅威など、これらのモデルに対する安全性の脅威の包括的な分類法を提示します。
(2)利用可能な場合は、各タイプの攻撃について提案された防衛戦略を確認し、安全研究のために一般的に使用されるデータセットとベンチマークを要約します。
(3)これに基づいて、大規模なモデルの安全性におけるオープンな課題を特定し、議論し、包括的な安全評価、スケーラブルで効果的な防御メカニズム、および持続可能なデータプラクティスの必要性を強調します。
さらに重要なことは、研究コミュニティと国際的なコラボレーションからの集団的努力の必要性を強調しています。
私たちの仕事は、研究者と実践者にとって有用なリファレンスとして機能し、AIモデルを保護するための包括的な防衛システムとプラットフォームの継続的な開発を促進することができます。

要約(オリジナル)

The rapid advancement of large models, driven by their exceptional abilities in learning and generalization through large-scale pre-training, has reshaped the landscape of Artificial Intelligence (AI). These models are now foundational to a wide range of applications, including conversational AI, recommendation systems, autonomous driving, content generation, medical diagnostics, and scientific discovery. However, their widespread deployment also exposes them to significant safety risks, raising concerns about robustness, reliability, and ethical implications. This survey provides a systematic review of current safety research on large models, covering Vision Foundation Models (VFMs), Large Language Models (LLMs), Vision-Language Pre-training (VLP) models, Vision-Language Models (VLMs), Diffusion Models (DMs), and large-model-based Agents. Our contributions are summarized as follows: (1) We present a comprehensive taxonomy of safety threats to these models, including adversarial attacks, data poisoning, backdoor attacks, jailbreak and prompt injection attacks, energy-latency attacks, data and model extraction attacks, and emerging agent-specific threats. (2) We review defense strategies proposed for each type of attacks if available and summarize the commonly used datasets and benchmarks for safety research. (3) Building on this, we identify and discuss the open challenges in large model safety, emphasizing the need for comprehensive safety evaluations, scalable and effective defense mechanisms, and sustainable data practices. More importantly, we highlight the necessity of collective efforts from the research community and international collaboration. Our work can serve as a useful reference for researchers and practitioners, fostering the ongoing development of comprehensive defense systems and platforms to safeguard AI models.

arxiv情報

著者 Xingjun Ma,Yifeng Gao,Yixu Wang,Ruofan Wang,Xin Wang,Ye Sun,Yifan Ding,Hengyuan Xu,Yunhao Chen,Yunhan Zhao,Hanxun Huang,Yige Li,Jiaming Zhang,Xiang Zheng,Yang Bai,Zuxuan Wu,Xipeng Qiu,Jingfeng Zhang,Yiming Li,Xudong Han,Haonan Li,Jun Sun,Cong Wang,Jindong Gu,Baoyuan Wu,Siheng Chen,Tianwei Zhang,Yang Liu,Mingming Gong,Tongliang Liu,Shirui Pan,Cihang Xie,Tianyu Pang,Yinpeng Dong,Ruoxi Jia,Yang Zhang,Shiqing Ma,Xiangyu Zhang,Neil Gong,Chaowei Xiao,Sarah Erfani,Tim Baldwin,Bo Li,Masashi Sugiyama,Dacheng Tao,James Bailey,Yu-Gang Jiang
発行日 2025-03-19 16:10:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV | Safety at Scale: A Comprehensive Survey of Large Model Safety はコメントを受け付けていません

Manual Labelling Artificially Inflates Deep Learning-Based Segmentation Performance on RGB Images of Closed Canopy: Validation Using TLS

要約

個々の樹木スケールでの森林ダイナミクスの監視は、気候変動に対する生態系の反応を正確に評価するために不可欠ですが、フィールドベースの森林在庫に依存する従来の方法は労働集約的であり、空間的なカバレッジが制限されています。
ドローンで獲得したRGB画像を使用したリモートセンシングの進歩と深い学習モデルと組み合わせて、正確な個々のツリークラウン(ITC)セグメンテーションを約束しました。
ただし、既存の方法は、人間が注目した画像に対して頻繁に検証されていますが、厳密な独立したグラウンドトゥルースがありません。
この研究では、混合されていない北方林と地中海の森林のドローン画像のための、共同配置された陸生レーザースキャン(TLS)データから高忠実度検証ラベルを生成します。
これらのデータで、広く使用されている2つのディープラーニングITCセグメンテーションモデル(Deepforest(Retinanet)とDetectree2(Mask R -CNN))のパフォーマンスを評価し、手動でラベル付けされたさらなる地中海の森林データのパフォーマンスと比較します。
地中海の森林からのTLS由来のグラウンドトゥルースに対して検証された場合、生態学的に類似したサイトからの手標識に基づく評価と比較して、モデルのパフォーマンスは大幅に減少しました(AP50:0.094対0.670)。
キャノピーツリーのみに評価を制限することは、このギャップを大幅に縮小しました(Canopy AP50:0.365)が、パフォーマンスは同様の手で覆われたデータよりもはるかに低かった。
また、モデルは北方の森林データではあまり機能しませんでした(AP50:0.142)が、天蓋木のみで評価されると再び増加します(Canopy AP50:0.308)。
両方のモデルは、キャノピーツリーに制限されている場合でも、より厳格なIOUしきい値で非常に不十分な局所化精度を示しました(Max AP75:0.051)。
航空用ライダーデータを使用した研究でも同様の結果が観察されており、閉じた天蓋森林における空中ベースのセグメンテーションアプローチの基本的な制限を示唆しています。

要約(オリジナル)

Monitoring forest dynamics at an individual tree scale is essential for accurately assessing ecosystem responses to climate change, yet traditional methods relying on field-based forest inventories are labor-intensive and limited in spatial coverage. Advances in remote sensing using drone-acquired RGB imagery combined with deep learning models have promised precise individual tree crown (ITC) segmentation; however, existing methods are frequently validated against human-annotated images, lacking rigorous independent ground truth. In this study, we generate high-fidelity validation labels from co-located Terrestrial Laser Scanning (TLS) data for drone imagery of mixed unmanaged boreal and Mediterranean forests. We evaluate the performance of two widely used deep learning ITC segmentation models – DeepForest (RetinaNet) and Detectree2 (Mask R-CNN) – on these data, and compare to performance on further Mediterranean forest data labelled manually. When validated against TLS-derived ground truth from Mediterranean forests, model performance decreased significantly compared to assessment based on hand-labelled from an ecologically similar site (AP50: 0.094 vs. 0.670). Restricting evaluation to only canopy trees shrank this gap considerably (Canopy AP50: 0.365), although performance was still far lower than on similar hand-labelled data. Models also performed poorly on boreal forest data (AP50: 0.142), although again increasing when evaluated on canopy trees only (Canopy AP50: 0.308). Both models showed very poor localisation accuracy at stricter IoU thresholds, even when restricted to canopy trees (Max AP75: 0.051). Similar results have been observed in studies using aerial LiDAR data, suggesting fundamental limitations in aerial-based segmentation approaches in closed canopy forests.

arxiv情報

著者 Matthew J. Allen,Harry J. F. Owen,Stuart W. D. Grieve,Emily R. Lines
発行日 2025-03-19 16:17:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.4 | Manual Labelling Artificially Inflates Deep Learning-Based Segmentation Performance on RGB Images of Closed Canopy: Validation Using TLS はコメントを受け付けていません