Towards Reliable Evaluation of Behavior Steering Interventions in LLMs

要約

表現エンジニアリング手法は最近、モデルの動作の効率的な操作を可能にする可能性を示しています。
ただし、これらの手法の評価パイプラインは、定量的で客観的な指標ではなく、主に主観的な実証に依存していました。
私たちは、現在の評価に欠けている 4 つの特性を提唱することで、この問題に対処するための一歩を踏み出すことを目指しています。
(ii) モデルの尤度を考慮する必要があります。
(iii) 評価では、さまざまな対象行動にわたる標準化された比較が可能である必要があります。
(iv) ベースライン比較を提供する必要があります。
これらの基準に基づいた評価パイプラインを導入し、特定の方法がどの程度効果的に機能するかを定量的かつ視覚的に分析できます。
私たちはこのパイプラインを使用して、真実性や正しさなどの行動をどの程度効果的に誘導できるかについて 2 つの表現エンジニアリング手法を評価し、一部の介入が以前に報告されているほど効果的でないことが判明しました。

要約(オリジナル)

Representation engineering methods have recently shown promise for enabling efficient steering of model behavior. However, evaluation pipelines for these methods have primarily relied on subjective demonstrations, instead of quantitative, objective metrics. We aim to take a step towards addressing this issue by advocating for four properties missing from current evaluations: (i) contexts sufficiently similar to downstream tasks should be used for assessing intervention quality; (ii) model likelihoods should be accounted for; (iii) evaluations should allow for standardized comparisons across different target behaviors; and (iv) baseline comparisons should be offered. We introduce an evaluation pipeline grounded in these criteria, offering both a quantitative and visual analysis of how effectively a given method works. We use this pipeline to evaluate two representation engineering methods on how effectively they can steer behaviors such as truthfulness and corrigibility, finding that some interventions are less effective than previously reported.

arxiv情報

著者 Itamar Pres,Laura Ruis,Ekdeep Singh Lubana,David Krueger
発行日 2024-10-22 17:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Reliable Evaluation of Behavior Steering Interventions in LLMs はコメントを受け付けていません

Learning Precise, Contact-Rich Manipulation through Uncalibrated Tactile Skins

要約

視覚運動ポリシーの学習によりロボット操作が進歩しましたが、物理的な相互作用を推論する際の視覚の限界により、接触が多いタスクを正確に実行することは依然として困難です。
これに対処するために、最近の研究では、触覚センシングを政策学習に統合することが試みられています。
しかし、既存のアプローチの多くは、認識タスクに限定されているか、ポリシー学習のために複雑な次元削減ステップを必要とする光学触覚センサーに依存しています。
この研究では、磁気皮膚センサーを使用した学習ポリシーを検討します。磁気センサーは本質的に低次元で高感度であり、ロボット プラットフォームと統合するのに安価です。
これらのセンサーを効果的に活用するために、トランスフォーマーベースのポリシーを使用し、皮膚センサーのデータを視覚情報とともに追加のトークンとして扱うシンプルなアプローチである Visuo-Skin (ViSk) フレームワークを紹介します。
クレジット カードのスワイプ、プラグの挿入、USB の挿入、本棚の取り出しを含む 4 つの複雑な現実世界のタスクで評価したところ、ViSk は視覚のみと光学触覚センシング ベースのポリシーの両方を大幅に上回りました。
さらなる分析により、触覚モダリティと視覚モダリティを組み合わせることで政策のパフォーマンスと空間的一般化が強化され、タスク全体で平均 27.5% の改善が達成されることが明らかになりました。
https://visuoskin.github.io/

要約(オリジナル)

While visuomotor policy learning has advanced robotic manipulation, precisely executing contact-rich tasks remains challenging due to the limitations of vision in reasoning about physical interactions. To address this, recent work has sought to integrate tactile sensing into policy learning. However, many existing approaches rely on optical tactile sensors that are either restricted to recognition tasks or require complex dimensionality reduction steps for policy learning. In this work, we explore learning policies with magnetic skin sensors, which are inherently low-dimensional, highly sensitive, and inexpensive to integrate with robotic platforms. To leverage these sensors effectively, we present the Visuo-Skin (ViSk) framework, a simple approach that uses a transformer-based policy and treats skin sensor data as additional tokens alongside visual information. Evaluated on four complex real-world tasks involving credit card swiping, plug insertion, USB insertion, and bookshelf retrieval, ViSk significantly outperforms both vision-only and optical tactile sensing based policies. Further analysis reveals that combining tactile and visual modalities enhances policy performance and spatial generalization, achieving an average improvement of 27.5% across tasks. https://visuoskin.github.io/

arxiv情報

著者 Venkatesh Pattabiraman,Yifeng Cao,Siddhant Haldar,Lerrel Pinto,Raunaq Bhirangi
発行日 2024-10-22 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Precise, Contact-Rich Manipulation through Uncalibrated Tactile Skins はコメントを受け付けていません

HyperspectralViTs: Fast and Accurate methane detection on-board satellites

要約

機械学習モデルを使用したハイパースペクトル データのオンボード処理により、メタン検出や鉱物識別など、幅広いタスクに対して前例のない量の自律性が可能になります。
メタンは気候変動の 2 番目に重要な温室効果ガスの原因物質であり、機械学習モデルを使用して衛星に搭載されたメタンの自動検出により、早期警報システムが可能になり、衛星群内での自動スケジューリングなどの新機能が可能になる可能性があります。
メタン検出の古典的な方法は高い誤検知率に悩まされており、以前の深層学習モデルは法外な計算要件を示しています。
私たちは、高スペクトル次元のデータを使用したエンドツーエンドのトレーニングをサポートする、高速かつ正確な機械学習アーキテクチャを提案します。
私たちは、ハイパースペクトル データ処理に関連する 2 つのタスク (メタン漏洩検出と鉱物識別) でモデルを評価します。
私たちが提案した一般的なアーキテクチャにより、以前のメタン検出の最先端モデルの F1 スコアが、新しく作成された合成データセットでは 27% 以上改善され、以前にリリースされた大規模なベンチマーク データセットではほぼ 13% 改善されました。
また、合成データセットでモデルをトレーニングすると、最初からトレーニングした場合と比較して、実際のイベントのデータセットで微調整されたモデルのパフォーマンスが F1 スコアで 6.9% 向上することも実証します。
鉱物同定用に新しく作成されたデータセットでは、モデルのデフォルト バージョンと比較して、私たちのモデルは F1 スコアで 3.5% の改善をもたらしました。
私たちが提案したモデルでは、古典的に計算された特徴への依存を取り除くことで、以前の古典的および深層学習のアプローチと比較して、推論速度が 85.19% 向上しました。
つまり、EMIT センサーからの 1 つのキャプチャは、ION-SCV 004 衛星で使用されている現実的なプロキシ ハードウェア上でわずか 30 秒で処理できます。

要約(オリジナル)

On-board processing of hyperspectral data with machine learning models would enable unprecedented amount of autonomy for a wide range of tasks, for example methane detection or mineral identification. Methane is the second most important greenhouse gas contributor to climate change, and it’s automated detection on-board of satellites using machine learning models would allow for early warning system and could enable new capabilities such as automated scheduling inside constellations of satellites. Classical methods for methane detection suffer from high false positive rates and previous deep learning models exhibit prohibitive computational requirements. We propose fast and accurate machine learning architectures which support end-to-end training with data of high spectral dimension. We evaluate our models on two tasks related to hyperspectral data processing – methane leak detection and mineral identification. With our proposed general architectures, we improve the F1 score of the previous methane detection state-of-the-art models by more than 27% on a newly created synthetic dataset and by almost 13% on the previously released large benchmark dataset. We also demonstrate that training models on the synthetic dataset improves performance of models finetuned on the dataset of real events by 6.9% in F1 score in contrast with training from scratch. On a newly created dataset for mineral identification, our models provide 3.5% improvement in the F1 score in contrast to the default versions of the models. With our proposed models we improve the inference speed by 85.19% in contrast to previous classical and deep learning approaches by removing the dependency on classically computed features. Namely, one capture from the EMIT sensor can be processed in only 30 seconds on a realistic proxy hardware used on the ION-SCV 004 satellite.

arxiv情報

著者 Vít Růžička,Andrew Markham
発行日 2024-10-22 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | HyperspectralViTs: Fast and Accurate methane detection on-board satellites はコメントを受け付けていません

DiP-GO: A Diffusion Pruner via Few-step Gradient Optimization

要約

拡散モデルはその優れた性能により、画像生成の分野で目覚ましい進歩を遂げてきました。
ただし、これらのモデルは、推論中に複数ステップのノイズ除去プロセスを実行するため、大量のコンピューティング リソースを必要とします。
これらのモデルを最適化するために従来の枝刈り手法が採用されてきましたが、再トレーニング プロセスでは汎化能力を維持するために大規模なトレーニング データセットと膨大な計算コストが必要となるため、便利でも効率的でもありません。
最近の研究では、隣接するノイズ除去ステージ間の特徴の類似性を利用して、単純で静的な戦略を通じて計算コストを削減しようとしています。
ただし、これらの戦略では、隣接するタイムステップにわたる同様の特徴パターンの可能性を完全に活用することはできません。
この研究では、よりインテリジェントで微分可能なプルーナーを介して効率的な拡散モデルを導出する新しいプルーニング方法を提案します。
私たちのアプローチの中核は、モデルの枝刈りプロセスをサブネット検索プロセスにキャストすることです。
具体的には、まず、同様の機能に基づいて構築されたバックアップ接続を追加することにより、標準の普及に基づいたスーパーネットを導入します。
次に、プラグイン プルーナー ネットワークを構築し、冗長な計算を特定するための最適化損失を設計します。
最後に、私たちの方法では、数ステップの勾配最適化と簡単な後処理手順を通じて最適なサブネットを特定できます。
私たちは、安定拡散シリーズや DiT を含むさまざまな拡散モデルについて広範な実験を行っています。
当社の DiP-GO アプローチは、精度を損なうことなく SD-1.5 の 4.4 倍の高速化を達成し、以前の最先端の方法を大幅に上回ります。

要約(オリジナル)

Diffusion models have achieved remarkable progress in the field of image generation due to their outstanding capabilities. However, these models require substantial computing resources because of the multi-step denoising process during inference. While traditional pruning methods have been employed to optimize these models, the retraining process necessitates large-scale training datasets and extensive computational costs to maintain generalization ability, making it neither convenient nor efficient. Recent studies attempt to utilize the similarity of features across adjacent denoising stages to reduce computational costs through simple and static strategies. However, these strategies cannot fully harness the potential of the similar feature patterns across adjacent timesteps. In this work, we propose a novel pruning method that derives an efficient diffusion model via a more intelligent and differentiable pruner. At the core of our approach is casting the model pruning process into a SubNet search process. Specifically, we first introduce a SuperNet based on standard diffusion via adding some backup connections built upon the similar features. We then construct a plugin pruner network and design optimization losses to identify redundant computation. Finally, our method can identify an optimal SubNet through few-step gradient optimization and a simple post-processing procedure. We conduct extensive experiments on various diffusion models including Stable Diffusion series and DiTs. Our DiP-GO approach achieves 4.4 x speedup for SD-1.5 without any loss of accuracy, significantly outperforming the previous state-of-the-art methods.

arxiv情報

著者 Haowei Zhu,Dehua Tang,Ji Liu,Mingjie Lu,Jintu Zheng,Jinzhang Peng,Dong Li,Yu Wang,Fan Jiang,Lu Tian,Spandan Tiwari,Ashish Sirasao,Jun-Hai Yong,Bin Wang,Emad Barsoum
発行日 2024-10-22 12:18:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DiP-GO: A Diffusion Pruner via Few-step Gradient Optimization はコメントを受け付けていません

IdenBAT: Disentangled Representation Learning for Identity-Preserved Brain Age Transformation

要約

脳年齢変換は、基準脳画像を、対象年齢グループの年齢特有の特徴を正確に反映する合成画像に変換することを目的としています。
このタスクの主な目的は、年齢に関係のない他のすべての属性を保持しながら、参照画像の年齢に関連する属性のみを変更することです。
ただし、バックボーン エンコーダーから抽出された特徴内にさまざまな画像属性が固有に絡み合っているため、この目標を達成するには大きな課題が生じ、その結果、画像生成中に同時に変更が加えられることになります。
この課題に対処するために、私たちは IdenBAT と呼ばれる、アイデンティティを保持した脳年齢変換のためのもつれ解除表現学習を採用した新しいアーキテクチャを提案します。
このアプローチにより、画像の特徴の分解が容易になり、個人の特徴を確実に保存しながら、年齢に関連した特徴を対象年齢グループの特徴に一致するように選択的に変換します。
2D とフルサイズの 3D 脳データセットの両方で行われた包括的な実験を通じて、私たちの手法は、個人の特徴を正確に保持しながら、入力画像をターゲット年齢に適切に変換します。
さらに、当社のアプローチは、パフォーマンスの忠実性に関して既存の最先端技術よりも優れていることを実証しています。

要約(オリジナル)

Brain age transformation aims to convert reference brain images into synthesized images that accurately reflect the age-specific features of a target age group. The primary objective of this task is to modify only the age-related attributes of the reference image while preserving all other age-irrelevant attributes. However, achieving this goal poses substantial challenges due to the inherent entanglement of various image attributes within features extracted from a backbone encoder, resulting in simultaneous alterations during the image generation. To address this challenge, we propose a novel architecture that employs disentangled representation learning for identity-preserved brain age transformation called IdenBAT. This approach facilitates the decomposition of image features, ensuring the preservation of individual traits while selectively transforming age-related characteristics to match those of the target age group. Through comprehensive experiments conducted on both 2D and full-size 3D brain datasets, our method adeptly converts input images to target age while retaining individual characteristics accurately. Furthermore, our approach demonstrates superiority over existing state-of-the-art regarding performance fidelity.

arxiv情報

著者 Junyeong Maeng,Kwanseok Oh,Wonsik Jung,Heung-Il Suk
発行日 2024-10-22 12:20:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, q-bio.NC | IdenBAT: Disentangled Representation Learning for Identity-Preserved Brain Age Transformation はコメントを受け付けていません

ISImed: A Framework for Self-Supervised Learning using Intrinsic Spatial Information in Medical Images

要約

この論文では、空間情報を使用して、自己教師あり学習 (SSL) を使用して医療画像内の解釈可能な表現を学習できることを実証します。
私たちが提案した手法 ISImed は、医療画像が従来のデータ ビジョン ベンチマークと比較して、異なる画像間での変動がはるかに小さいという観察に基づいています。
複数の画像にわたる人体の構造の類似性を利用することで、物理的領域での位置を捕捉できる潜在的な表現を作成する自己監視型の目標を確立します。
より具体的には、私たちの方法には、画像クロップをサンプリングし、これらのクロップのすべての可能な組み合わせの学習された表現ベクトルをそれらの間の真の距離と比較する距離行列を作成することが含まれます。
直感的には、学習された潜在空間は、特定の画像クロップの位置エンコーディングであると考えられます。
私たちは、これらの位置エンコーディングを学習することで、包括的な画像表現を生成する必要があると仮説を立てます。
この仮説を検証し、手法を評価するために、学習した表現を、公的に利用可能な 2 つの医療画像データセットに対する 2 つの最先端の SSL ベンチマーク手法と比較します。
私たちの方法は、データの基礎となる構造を捕捉する表現を効率的に学習でき、下流の分類タスクに転送するために使用できることを示します。

要約(オリジナル)

This paper demonstrates that spatial information can be used to learn interpretable representations in medical images using Self-Supervised Learning (SSL). Our proposed method, ISImed, is based on the observation that medical images exhibit a much lower variability among different images compared to classic data vision benchmarks. By leveraging this resemblance of human body structures across multiple images, we establish a self-supervised objective that creates a latent representation capable of capturing its location in the physical realm. More specifically, our method involves sampling image crops and creating a distance matrix that compares the learned representation vectors of all possible combinations of these crops to the true distance between them. The intuition is, that the learned latent space is a positional encoding for a given image crop. We hypothesize, that by learning these positional encodings, comprehensive image representations have to be generated. To test this hypothesis and evaluate our method, we compare our learned representation with two state-of-the-art SSL benchmarking methods on two publicly available medical imaging datasets. We show that our method can efficiently learn representations that capture the underlying structure of the data and can be used to transfer to a downstream classification task.

arxiv情報

著者 Nabil Jabareen,Dongsheng Yuan,Sören Lukassen
発行日 2024-10-22 12:21:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | ISImed: A Framework for Self-Supervised Learning using Intrinsic Spatial Information in Medical Images はコメントを受け付けていません

Mitral Regurgitation Recognition based on Unsupervised Out-of-Distribution Detection with Residual Diffusion Amplification

要約

僧帽弁閉鎖不全症 (MR) は重篤な心臓弁膜症です。
超音波ビデオによる MR の早期かつ正確な診断は、タイムリーな臨床上の意思決定と外科的介入にとって非常に重要です。
しかし、手動による MR 診断はオペレータの経験に大きく依存するため、誤診や観察者間のばらつきが生じる可能性があります。
MR データは限られており、クラス内変動が大きいため、深層分類器を構築するのではなく、MR を識別するための教師なし分布外 (OOD) 検出方法を提案します。
私たちの知る限り、私たちは MR 超音波ビデオで OOD を研究した最初の企業です。
私たちの方法は、特徴抽出器、特徴再構成モデ​​ル、および残差累積増幅アルゴリズムで構成されます。
特徴抽出器は、ビデオ クリップから特徴を取得し、それを特徴再構成モデ​​ルに入力して、元の特徴を復元します。
次に、残差累積増幅アルゴリズムがノイズ特徴の再構築を繰り返し実行し、OOD 特徴の再構築誤差を増幅します。
このアルゴリズムは単純でありながら効率的であり、再構成ベースの OOD 検出方法にプラグ アンド プレイ コンポーネントとしてシームレスに統合できます。
私たちは、893 の非 MR ビデオと 267 の MR ビデオを含む大規模な超音波データセットで提案された方法を検証しました。
実験結果は、我々の OOD 検出方法が MR サンプルを効果的に識別できることを示しています。

要約(オリジナル)

Mitral regurgitation (MR) is a serious heart valve disease. Early and accurate diagnosis of MR via ultrasound video is critical for timely clinical decision-making and surgical intervention. However, manual MR diagnosis heavily relies on the operator’s experience, which may cause misdiagnosis and inter-observer variability. Since MR data is limited and has large intra-class variability, we propose an unsupervised out-of-distribution (OOD) detection method to identify MR rather than building a deep classifier. To our knowledge, we are the first to explore OOD in MR ultrasound videos. Our method consists of a feature extractor, a feature reconstruction model, and a residual accumulation amplification algorithm. The feature extractor obtains features from the video clips and feeds them into the feature reconstruction model to restore the original features. The residual accumulation amplification algorithm then iteratively performs noise feature reconstruction, amplifying the reconstructed error of OOD features. This algorithm is straightforward yet efficient and can seamlessly integrate as a plug-and-play component in reconstruction-based OOD detection methods. We validated the proposed method on a large ultrasound dataset containing 893 non-MR and 267 MR videos. Experimental results show that our OOD detection method can effectively identify MR samples.

arxiv情報

著者 Zhe Liu,Xiliang Zhu,Tong Han,Yuhao Huang,Jian Wang,Lian Liu,Fang Wang,Dong Ni,Zhongshan Gou,Xin Yang
発行日 2024-10-22 12:23:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mitral Regurgitation Recognition based on Unsupervised Out-of-Distribution Detection with Residual Diffusion Amplification はコメントを受け付けていません

Taming Diffusion Models for Image Restoration: A Review

要約

拡散モデルは、生成モデリング、特に人間の好みに合わせて画質を向上させる点で目覚ましい進歩を遂げました。
最近、これらのモデルは、画像のノイズ除去、ぼやけ除去、かすみ除去などのタスクにおけるフォトリアリスティックな画像復元 (IR) のための低レベルのコンピューター ビジョンにも適用されています。このレビュー ペーパーでは、拡散モデルと調査の主要な構造を紹介します。
一般的な IR タスクの解決に拡散モデルを利用する現代的な技術。
さらに、既存の普及ベースの IR フレームワークの主な課題と限界を指摘し、将来の取り組みの潜在的な方向性を提供します。

要約(オリジナル)

Diffusion models have achieved remarkable progress in generative modelling, particularly in enhancing image quality to conform to human preferences. Recently, these models have also been applied to low-level computer vision for photo-realistic image restoration (IR) in tasks such as image denoising, deblurring, dehazing, etc. In this review paper, we introduce key constructions in diffusion models and survey contemporary techniques that make use of diffusion models in solving general IR tasks. Furthermore, we point out the main challenges and limitations of existing diffusion-based IR frameworks and provide potential directions for future work.

arxiv情報

著者 Ziwei Luo,Fredrik K. Gustafsson,Zheng Zhao,Jens Sjölund,Thomas B. Schön
発行日 2024-10-22 12:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Taming Diffusion Models for Image Restoration: A Review はコメントを受け付けていません

Towards Real Zero-Shot Camouflaged Object Segmentation without Camouflaged Annotations

要約

カモフラージュ オブジェクト セグメンテーション (COS) は、アノテーション付きデータの不足により重大な課題に直面しています。主に複雑なオブジェクトと背景の境界により、細心の注意を払ったピクセル レベルのアノテーションは労力とコストの両方がかかります。
「カモフラージュされたオブジェクトに対して手動で注釈を付けずに、ゼロショット方式で COS を効果的に達成できるか?」という核心的な質問に対処します。
私たちは積極的に対応し、堅牢なゼロショット COS フレームワークを導入します。
このフレームワークは、COS の固有のローカル パターン バイアスを活用し、効率的なゼロショット転送のために顕著なオブジェクト セグメンテーション (SOS) から派生した広範なセマンティック特徴空間を採用します。
パラメーター効率の良い微調整 (PEFT)、マルチモーダル大規模言語モデル (M-LLM)、およびマルチスケールのファイングレイン アライメント (MFA) メカニズム用に最適化されたマスク イメージ モデリング (MIM) ベースのイメージ エンコーダーが組み込まれています。
MIM 事前トレーニング済み画像エンコーダーは、重要な低レベルの特徴をキャプチャすることに重点を置き、M-LLM は、これらの視覚的手がかりとともに処理されるキャプション埋め込みを生成します。
これらの埋め込みは MFA を使用して正確に調整され、フレームワークが複雑なセマンティック コンテキストを正確に解釈してナビゲートできるようになります。
運用効率を最適化するために、推論中に M-LLM を表す学習可能なコードブックを導入し、計算オーバーヘッドを大幅に削減します。
私たちのフレームワークは、厳密な実験を通じてその多用途性と有効性を実証し、ゼロショット COS で $F_{\beta}^w$ スコアが CAMO で 72.9\%、COD10K で 71.7\% という最先端のパフォーマンスを達成しました。
推論中に M-LLM を削除することで、従来のエンドツーエンド モデルと同等の推論速度を実現し、18.1 FPS に達します。
コード: https://github.com/R-LEI360725/ZSCOS-CaMF

要約(オリジナル)

Camouflaged Object Segmentation (COS) faces significant challenges due to the scarcity of annotated data, where meticulous pixel-level annotation is both labor-intensive and costly, primarily due to the intricate object-background boundaries. Addressing the core question, ‘Can COS be effectively achieved in a zero-shot manner without manual annotations for any camouflaged object?’ we affirmatively respond and introduce a robust zero-shot COS framework. This framework leverages the inherent local pattern bias of COS and employs a broad semantic feature space derived from salient object segmentation (SOS) for efficient zero-shot transfer. We incorporate an Masked Image Modeling (MIM) based image encoder optimized for Parameter-Efficient Fine-Tuning (PEFT), a Multimodal Large Language Model (M-LLM), and a Multi-scale Fine-grained Alignment (MFA) mechanism. The MIM pre-trained image encoder focuses on capturing essential low-level features, while the M-LLM generates caption embeddings processed alongside these visual cues. These embeddings are precisely aligned using MFA, enabling our framework to accurately interpret and navigate complex semantic contexts. To optimize operational efficiency, we introduce a learnable codebook that represents the M-LLM during inference, significantly reducing computational overhead. Our framework demonstrates its versatility and efficacy through rigorous experimentation, achieving state-of-the-art performance in zero-shot COS with $F_{\beta}^w$ scores of 72.9\% on CAMO and 71.7\% on COD10K. By removing the M-LLM during inference, we achieve an inference speed comparable to that of traditional end-to-end models, reaching 18.1 FPS. Code: https://github.com/R-LEI360725/ZSCOS-CaMF

arxiv情報

著者 Cheng Lei,Jie Fan,Xinran Li,Tianzhu Xiang,Ao Li,Ce Zhu,Le Zhang
発行日 2024-10-22 12:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Real Zero-Shot Camouflaged Object Segmentation without Camouflaged Annotations はコメントを受け付けていません

PGCS: Physical Law embedded Generative Cloud Synthesis in Remote Sensing Images

要約

リモートセンシングにおける情報抽出と分析には、データの量と質の両方が重要です。
しかし、現在のリモート センシング データセットはこれら 2 つの要件を満たしていないことが多く、クラウドがデータの量と品質を低下させる主な要因となっています。
この制限は、リモート センシング アプリケーション、特にデータ駆動型技術から得られる結果の精度に影響します。
この論文では、現実的な多様な雲画像を生成して実際のデータを強化し、雲の補正、雲の検出、分類のためのデータ拡張などの後続のタスクのアルゴリズムの開発を促進する、物理法則埋め込み生成雲合成法 (PGCS) を提案します。
、認識、セグメンテーション。
PGCS メソッドには、空間合成とスペクトル合成という 2 つの重要なフェーズが含まれます。
空間合成フェーズでは、スタイルベースの敵対的生成ネットワークを利用して空間特性をシミュレートし、単一チャネルのクラウドを無数に生成します。
スペクトル合成フェーズでは、ローカル統計とグローバル フィッティング手法を通じて大気散乱則が埋め込まれ、単一チャネルの雲をマルチスペクトルの雲に変換します。
実験結果は、PGCS が両方のフェーズで高い精度を達成し、他の 3 つの既存のクラウド合成方法よりも優れたパフォーマンスを発揮することを示しています。
2 つの雲補正方法は PGCS から開発され、雲補正タスクにおいて最先端の方法と比較して優れたパフォーマンスを示します。
さらに、さまざまなセンサーからのデータを使用した PGCS のアプリケーションが調査され、拡張に成功しました。
コードは https://github.com/Liying-Xu/PGCS で提供されます。

要約(オリジナル)

Data quantity and quality are both critical for information extraction and analyzation in remote sensing. However, the current remote sensing datasets often fail to meet these two requirements, for which cloud is a primary factor degrading the data quantity and quality. This limitation affects the precision of results in remote sensing application, particularly those derived from data-driven techniques. In this paper, a physical law embedded generative cloud synthesis method (PGCS) is proposed to generate diverse realistic cloud images to enhance real data and promote the development of algorithms for subsequent tasks, such as cloud correction, cloud detection, and data augmentation for classification, recognition, and segmentation. The PGCS method involves two key phases: spatial synthesis and spectral synthesis. In the spatial synthesis phase, a style-based generative adversarial network is utilized to simulate the spatial characteristics, generating an infinite number of single-channel clouds. In the spectral synthesis phase, the atmospheric scattering law is embedded through a local statistics and global fitting method, converting the single-channel clouds into multi-spectral clouds. The experimental results demonstrate that PGCS achieves a high accuracy in both phases and performs better than three other existing cloud synthesis methods. Two cloud correction methods are developed from PGCS and exhibits a superior performance compared to state-of-the-art methods in the cloud correction task. Furthermore, the application of PGCS with data from various sensors was investigated and successfully extended. Code will be provided at https://github.com/Liying-Xu/PGCS.

arxiv情報

著者 Liying Xu,Huifang Li,Huanfeng Shen,Mingyang Lei,Tao Jiang
発行日 2024-10-22 12:36:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | PGCS: Physical Law embedded Generative Cloud Synthesis in Remote Sensing Images はコメントを受け付けていません