Developing a Thailand solar irradiance map using Himawari-8 satellite imageries and deep learning models

要約

この論文では、タイの太陽放射量マップを 30 分ごとに表示するオンライン プラットフォームを紹介します。
https://www.cusolarforecast.com で入手できます。
タイ全土の全球水平放射照度 (GHI) を推定する方法は、ひまわり 8 号衛星画像から抽出された雲指数、局所的に調整された Linke 濁度を含む Ineichen 晴天モデル、および機械学習モデルに依存しています。
この手法では、晴天の日射量、雲指数、MERRA-2 データベースから再分析された GHI および温度データ、および日時を、LightGBM、LSTM、Informer、Transformer などの GHI 推定モデルの入力として取得します。
これらは、2022 年から 2023 年の 1 年半にわたる 53 の地上局からの 15 分間の地上 GHI データを評価することにより、商用サービス X からの推定値でベンチマークされます。
結果は、4 つのモデルが競争力のあるパフォーマンスを持ち、サービス X を上回っていることを示しています。最高のモデルは LightGBM で、MAE は 78.58 W/平方メートル、RMSE は 118.97 W/平方メートルです。
タイ向けに再分析された MERRA-2 データを入手することは、導入するには経済的に現実的ではありません。
これらの機能を削除すると、Informer モデルは MAE で 78.67 W/sqm という優れたパフォーマンスを発揮します。
得られたパフォーマンスは、気候帯とデータの時間粒度を考慮することにより、既存の文献と一致します。
この地図は頻繁に更新される 93,000 グリッドを超える GHI の推定値を示しているため、この論文では地図全体を表示するための計算フレームワークについても説明しています。
GHI 推定プロセスにおける深層学習モデルの実行時のパフォーマンスをテストします。

要約(オリジナル)

This paper presents an online platform that shows Thailand’s solar irradiance map every 30 minutes. It is available at https://www.cusolarforecast.com. The methodology for estimating global horizontal irradiance (GHI) across Thailand relies on cloud index extracted from Himawari-8 satellite imagery, Ineichen clear-sky model with locally-tuned Linke turbidity, and machine learning models. The methods take clear-sky irradiance, cloud index, re-analyzed GHI and temperature data from the MERRA-2 database, and date-time as inputs for GHI estimation models, including LightGBM, LSTM, Informer, and Transformer. These are benchmarked with the estimate from a commercial service X by evaluating 15-minute ground GHI data from 53 ground stations over 1.5 years from 2022-2023. The results show that the four models have competitive performances and outperform the service X. The best model is LightGBM, with an MAE of 78.58 W/sqm and RMSE of 118.97 W/sqm. Obtaining re-analyzed MERRA-2 data for Thailand is not economically feasible for deployment. When removing these features, the Informer model has a winning performance of 78.67 W/sqm in MAE. The obtained performance aligns with existing literature by taking the climate zone and time granularity of data into consideration. As the map shows an estimate of GHI over 93,000 grids with a frequent update, the paper also describes a computational framework for displaying the entire map. It tests the runtime performance of deep learning models in the GHI estimation process.

arxiv情報

著者 Suwichaya Suwanwimolkul,Natanon Tongamrak,Nuttamon Thungka,Naebboon Hoonchareon,Jitkomut Songsiri
発行日 2024-10-22 14:09:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, physics.ao-ph | Developing a Thailand solar irradiance map using Himawari-8 satellite imageries and deep learning models はコメントを受け付けていません

RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance

要約

ユーザーが提供した参照画像から同一性を保持する画像を生成するために拡散モデルをカスタマイズすることは、興味深い新しい問題です。
一般に普及しているアプローチでは、アイデンティティの保存を実現するために広範なドメイン固有のイメージでトレーニングする必要があるため、さまざまなユースケースにわたる柔軟性に欠けています。
この問題に対処するために、私たちは、既存の分類子を使用して拡散モデルを操作するトレーニング不要の手法である分類子ガイダンスを利用して、パーソナライズされた画像を生成します。
私たちの調査では、最近の修正されたフロー フレームワークに基づいて、特別な分類子を必要とするバニラ分類子ガイダンスの主な制限が、シンプルな固定小数点ソリューションで解決でき、既製の画像弁別器を使用して柔軟なパーソナライゼーションが可能になることが示されています。
さらに、その解法手順は、参照流れ軌跡に固定されている場合に安定しており、収束が保証されていることが証明されています。
派生したメソッドは、さまざまな既製の画像弁別器を使用して修正されたフローに実装され、人間の顔、生きている被写体、および特定のオブジェクトに対して有利なパーソナライゼーション結果を提供します。
コードは https://github.com/feifeiobama/RectifID で入手できます。

要約(オリジナル)

Customizing diffusion models to generate identity-preserving images from user-provided reference images is an intriguing new problem. The prevalent approaches typically require training on extensive domain-specific images to achieve identity preservation, which lacks flexibility across different use cases. To address this issue, we exploit classifier guidance, a training-free technique that steers diffusion models using an existing classifier, for personalized image generation. Our study shows that based on a recent rectified flow framework, the major limitation of vanilla classifier guidance in requiring a special classifier can be resolved with a simple fixed-point solution, allowing flexible personalization with off-the-shelf image discriminators. Moreover, its solving procedure proves to be stable when anchored to a reference flow trajectory, with a convergence guarantee. The derived method is implemented on rectified flow with different off-the-shelf image discriminators, delivering advantageous personalization results for human faces, live subjects, and certain objects. Code is available at https://github.com/feifeiobama/RectifID.

arxiv情報

著者 Zhicheng Sun,Zhenhao Yang,Yang Jin,Haozhe Chi,Kun Xu,Kun Xu,Liwei Chen,Hao Jiang,Yang Song,Kun Gai,Yadong Mu
発行日 2024-10-22 14:21:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance はコメントを受け付けていません

DCDepth: Progressive Monocular Depth Estimation in Discrete Cosine Domain

要約

この論文では、長年にわたって行われてきた単眼の奥行き推定タスクのための新しいフレームワークである DCDepth を紹介します。
空間領域における従来のピクセルごとの深度推定を超えて、私たちのアプローチは、離散コサイン領域に変換した後に深度パッチの周波数係数を推定します。
この独自の定式化により、各パッチ内の局所的な深度相関のモデリングが可能になります。
重要なのは、周波数変換により、深度情報がさまざまな周波数成分に分離され、低周波成分がコアシーン構造をカプセル化し、高周波成分がより詳細な側面を詳細に表現することです。
この分解は、グローバル シーン コンテキストを確立するための低周波成分の予測から始まり、高周波成分の予測を通じて局所的な詳細を連続的に改良する、当社の漸進的戦略の基礎を形成します。
NYU-Depth-V2、TOFDC、KITTI データセットに対して包括的な実験を実施し、DCDepth の最先端のパフォーマンスを実証します。
コードは https://github.com/w2kun/DCDepth で入手できます。

要約(オリジナル)

In this paper, we introduce DCDepth, a novel framework for the long-standing monocular depth estimation task. Moving beyond conventional pixel-wise depth estimation in the spatial domain, our approach estimates the frequency coefficients of depth patches after transforming them into the discrete cosine domain. This unique formulation allows for the modeling of local depth correlations within each patch. Crucially, the frequency transformation segregates the depth information into various frequency components, with low-frequency components encapsulating the core scene structure and high-frequency components detailing the finer aspects. This decomposition forms the basis of our progressive strategy, which begins with the prediction of low-frequency components to establish a global scene context, followed by successive refinement of local details through the prediction of higher-frequency components. We conduct comprehensive experiments on NYU-Depth-V2, TOFDC, and KITTI datasets, and demonstrate the state-of-the-art performance of DCDepth. Code is available at https://github.com/w2kun/DCDepth.

arxiv情報

著者 Kun Wang,Zhiqiang Yan,Junkai Fan,Wanlu Zhu,Xiang Li,Jun Li,Jian Yang
発行日 2024-10-22 14:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DCDepth: Progressive Monocular Depth Estimation in Discrete Cosine Domain はコメントを受け付けていません

Context and Geometry Aware Voxel Transformer for Semantic Scene Completion

要約

ビジョンベースのセマンティック シーン補完 (SSC) は、さまざまな 3D 認識タスクに広く応用されているため、多くの注目を集めています。
既存の疎から密へのアプローチは通常、さまざまな入力画像にわたってコンテキストに依存しない共有クエリを使用しますが、異なる入力の焦点領域が変化するため画像間の区別を捕捉できず、クロスアテンションによる無向の特徴集約が発生する可能性があります。
さらに、深度情報が存在しないと、同じ 2D 位置または特徴マップ内の同様のサンプリング ポイントを共有する画像平面上に点が投影され、深度の曖昧さが生じる可能性があります。
この論文では、新しいコンテキストとジオメトリを認識したボクセル トランスフォーマーを紹介します。
コンテキスト認識クエリ ジェネレーターを利用して、個々の入力画像に合わせたコンテキスト依存クエリを初期化し、その固有の特性を効果的にキャプチャし、対象領域内の情報を集約します。
さらに、変形可能なクロスアテンションを 2D ピクセル空間から 3D ピクセル空間に拡張し、深度座標に基づいて類似した画像座標を持つ点を区別できるようにします。
このモジュールに基づいて、CGFormer という名前のニューラル ネットワークを導入して、セマンティック シーンの完成を実現します。
同時に、CGFormer は複数の 3D 表現 (つまり、ボクセルと TPV) を利用して、ローカルとグローバルの両方の観点から、変換された 3D ボリュームのセマンティックおよび幾何学的表現能力を強化します。
実験結果は、CGFormer が SemanticKITTI および SSCBench-KITTI-360 ベンチマークで最先端のパフォーマンスを達成し、それぞれ 16.87 と 20.05 の mIoU、および 45.99 と 48.07 の IoU を達成していることを示しています。
驚くべきことに、CGFormer は、時間画像を入力として使用するアプローチや、はるかに大規模な画像バックボーン ネットワークを使用するアプローチよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Vision-based Semantic Scene Completion (SSC) has gained much attention due to its widespread applications in various 3D perception tasks. Existing sparse-to-dense approaches typically employ shared context-independent queries across various input images, which fails to capture distinctions among them as the focal regions of different inputs vary and may result in undirected feature aggregation of cross-attention. Additionally, the absence of depth information may lead to points projected onto the image plane sharing the same 2D position or similar sampling points in the feature map, resulting in depth ambiguity. In this paper, we present a novel context and geometry aware voxel transformer. It utilizes a context aware query generator to initialize context-dependent queries tailored to individual input images, effectively capturing their unique characteristics and aggregating information within the region of interest. Furthermore, it extend deformable cross-attention from 2D to 3D pixel space, enabling the differentiation of points with similar image coordinates based on their depth coordinates. Building upon this module, we introduce a neural network named CGFormer to achieve semantic scene completion. Simultaneously, CGFormer leverages multiple 3D representations (i.e., voxel and TPV) to boost the semantic and geometric representation abilities of the transformed 3D volume from both local and global perspectives. Experimental results demonstrate that CGFormer achieves state-of-the-art performance on the SemanticKITTI and SSCBench-KITTI-360 benchmarks, attaining a mIoU of 16.87 and 20.05, as well as an IoU of 45.99 and 48.07, respectively. Remarkably, CGFormer even outperforms approaches employing temporal images as inputs or much larger image backbone networks.

arxiv情報

著者 Zhu Yu,Runmin Zhang,Jiacheng Ying,Junchen Yu,Xiaohai Hu,Lun Luo,Si-Yuan Cao,Hui-Liang Shen
発行日 2024-10-22 14:28:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Context and Geometry Aware Voxel Transformer for Semantic Scene Completion はコメントを受け付けていません

Multi Kernel Estimation based Object Segmentation

要約

この論文では、従来画像全体に対して単一のカーネルを推定する KernelGAN アルゴリズムを強化することによる、マルチカーネル推定の新しいアプローチを紹介します。
Multi-KernelGAN を導入します。これは、オブジェクト セグメンテーション マスクに基づいて 2 つの異なるカーネルを推定することにより、KernelGAN の機能を拡張します。
私たちのアプローチは、テクスチャ ベースのパッチ高速フーリエ変換 (FFT) 計算、詳細ベースのセグメンテーション、YOLOv8 とセグメント エニシング モデル (SAM) を使用した深層学習ベースのオブジェクト セグメンテーションという 3 つの異なる方法を通じて検証されています。
これらの方法の中で、YOLO と SAM を組み合わせると、カーネル推定に最良の結果が得られます。
実験結果は、私たちのマルチカーネル推定手法が超解像タスクにおいて従来のシングルカーネル手法よりも優れていることを示しています。

要約(オリジナル)

This paper presents a novel approach for multi-kernel estimation by enhancing the KernelGAN algorithm, which traditionally estimates a single kernel for the entire image. We introduce Multi-KernelGAN, which extends KernelGAN’s capabilities by estimating two distinct kernels based on object segmentation masks. Our approach is validated through three distinct methods: texture-based patch Fast Fourier Transform (FFT) calculation, detail-based segmentation, and deep learning-based object segmentation using YOLOv8 and the Segment Anything Model (SAM). Among these methods, the combination of YOLO and SAM yields the best results for kernel estimation. Experimental results demonstrate that our multi-kernel estimation technique outperforms conventional single-kernel methods in super-resolution tasks.

arxiv情報

著者 Haim Goldfisher,Asaf Yekutiel
発行日 2024-10-22 14:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi Kernel Estimation based Object Segmentation はコメントを受け付けていません

Neuronal Competition Groups with Supervised STDP for Spike-Based Classification

要約

スパイク タイミング依存可塑性 (STDP) は、ニューロモーフィック ハードウェア上でのスパイキング ニューラル ネットワーク (SNN) のローカル トレーニングにおけるバックプロパゲーションの有望な代替手段です。
STDP を使用すると、SNN は特徴抽出用の教師なし STDP と分類用の教師あり STDP を組み合わせて分類タスクに対処できます。
教師なし STDP は通常、Winner-Takes-All (WTA) 競争で使用され、明確なパターンを学習します。
しかし、監視付きSTDP分類のWTAは、不均衡な競争の課題に直面しています。
この論文では、ファーストスパイクコーディングと教師ありSTDPトレーニングを採用したスパイキング分類層でWTA競技を効果的に実装する方法を提案します。
クラスごとにさまざまなパターンの学習を促進することで分類機能を向上させるアーキテクチャである Neuronal Competition Group (NCG) を紹介します。
NCG は、特定のクラスにマッピングされたニューロンのグループであり、クラス内 WTA と 2 コンパートメントしきい値に基づく新しい競合制御メカニズムを実装しています。
私たちは、提案したアーキテクチャを、最先端の教師付き STDP ルールでトレーニングされたスパイキング分類層に組み込みます。
2 つの異なる教師なし特徴抽出器を使用することで、CIFAR-10 や CIFAR-100 などの画像認識データセットの精度が大幅に向上しました。
私たちは、競争の規制メカニズムがバランスの取れた競争と改善された階級分離を確保するために重要であることを示します。

要約(オリジナル)

Spike Timing-Dependent Plasticity (STDP) is a promising substitute to backpropagation for local training of Spiking Neural Networks (SNNs) on neuromorphic hardware. STDP allows SNNs to address classification tasks by combining unsupervised STDP for feature extraction and supervised STDP for classification. Unsupervised STDP is usually employed with Winner-Takes-All (WTA) competition to learn distinct patterns. However, WTA for supervised STDP classification faces unbalanced competition challenges. In this paper, we propose a method to effectively implement WTA competition in a spiking classification layer employing first-spike coding and supervised STDP training. We introduce the Neuronal Competition Group (NCG), an architecture that improves classification capabilities by promoting the learning of various patterns per class. An NCG is a group of neurons mapped to a specific class, implementing intra-class WTA and a novel competition regulation mechanism based on two-compartment thresholds. We incorporate our proposed architecture into spiking classification layers trained with state-of-the-art supervised STDP rules. On top of two different unsupervised feature extractors, we obtain significant accuracy improvements on image recognition datasets such as CIFAR-10 and CIFAR-100. We show that our competition regulation mechanism is crucial for ensuring balanced competition and improved class separation.

arxiv情報

著者 Gaspard Goupy,Pierre Tirilly,Ioan Marius Bilasco
発行日 2024-10-22 14:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Neuronal Competition Groups with Supervised STDP for Spike-Based Classification はコメントを受け付けていません

ReCAP: Recursive Cross Attention Network for Pseudo-Label Generation in Robotic Surgical Skill Assessment

要約

外科スキルの評価では、技術スキルの客観的構造評価 (OSATS スコア) とグローバル評価スケール (GRS) が、トレーニング中の外科医のパフォーマンスを評価するための確立されたツールです。
これらの指標とパフォーマンスに関するフィードバックを組み合わせることで、外科医は診療水準を向上させ、達成することができます。
GRS ラベルと OSATS ラベルの両方を含むオープンソース データセット JIGSAW に関する最近の研究は、運動信号、ビデオ データ、またはその両方の組み合わせから GRS スコアを回帰することに焦点を当てています。
この論文では、単位のない値である GRS スコアを回帰すること自体は制限が多すぎ、外科試験全体にわたる変動は重大な臨床的意味を持たないと主張します。
このギャップに対処するために、モデルの隠れ状態を運動信号から得られる 5 つの OSATS スコアに関連付けることにより、トレーニング セッション全体を通じて外科医のパフォーマンスを出力するリカレント トランスフォーマー モデルを開発しました。
これらのスコアは平均化および集計されて GRS 予測が生成され、最先端 (SOTA) に対するモデルのパフォーマンスの評価が可能になります。
我々はスピアマンの相関係数(SCC)を報告し、我々のモデルが、Leave-One-Subject-Out(LOSO)スキーム(SCC 0.68-0.89)での縫合を除くすべてのタスクでSOTAモデルよりも優れていることを示し、一方で縫合と縫合では同等のパフォーマンスを達成しています。
Leave-one-user-out (LOUO) スキーム (SCC 0.45-0.68) に基づくタスク全体で、ニードル パッシング (0.69) で SOTA を上回っています。
私たちは、最終的な OSATS スコアを外科医の手術全体の短いインスタンスに関連付けることは、単一の GRS スコアよりも臨床的に意味があると主張します。
このアプローチにより、定量的な予測を定性的なフィードバックに変換することもできます。これは、自動手術スキル評価パイプラインにとって重要です。
上級外科医は私たちのモデルの動作を検証し、77 \% (p = 0.006) の確率で半教師あり予測に同意しました。

要約(オリジナル)

In surgical skill assessment, Objective Structured Assessments of Technical Skills (OSATS scores) and the Global Rating Scale (GRS) are established tools for evaluating the performance of surgeons during training. These metrics, coupled with feedback on their performance, enable surgeons to improve and achieve standards of practice. Recent studies on the open-source dataset JIGSAW, which contains both GRS and OSATS labels, have focused on regressing GRS scores from kinematic signals, video data, or a combination of both. In this paper, we argue that regressing the GRS score, a unitless value, by itself is too restrictive, and variations throughout the surgical trial do not hold significant clinical meaning. To address this gap, we developed a recurrent transformer model that outputs the surgeon’s performance throughout their training session by relating the model’s hidden states to five OSATS scores derived from kinematic signals. These scores are averaged and aggregated to produce a GRS prediction, enabling assessment of the model’s performance against the state-of-the-art (SOTA). We report Spearman’s Correlation Coefficient (SCC), demonstrating that our model outperforms SOTA models for all tasks, except for Suturing under the leave-one-subject-out (LOSO) scheme (SCC 0.68-0.89), while achieving comparable performance for suturing and across tasks under the leave-one-user-out (LOUO) scheme (SCC 0.45-0.68) and beating SOTA for Needle Passing (0.69). We argue that relating final OSATS scores to short instances throughout a surgeon’s procedure is more clinically meaningful than a single GRS score. This approach also allows us to translate quantitative predictions into qualitative feedback, which is crucial for any automated surgical skill assessment pipeline. A senior surgeon validated our model’s behaviour and agreed with the semi-supervised predictions 77 \% (p = 0.006) of the time.

arxiv情報

著者 Julien Quarez,Matthew Elliot,Oscar Maccormac,Marc Modat,Sebastien Ourselin,Jonathan Shapey,Alejandro Granados
発行日 2024-10-22 14:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | ReCAP: Recursive Cross Attention Network for Pseudo-Label Generation in Robotic Surgical Skill Assessment はコメントを受け付けていません

A Survey on Deep Learning-based Gaze Direction Regression: Searching for the State-of-the-art

要約

この論文では、頭と目の画像から視線方向ベクトルを回帰するための深層学習ベースの方法の調査を紹介します。
入力データ、モデルのアーキテクチャ、モデルの監視に使用される損失関数に焦点を当てて、多数の公開された手法を詳細に説明します。
さらに、視線方向回帰法のトレーニングと評価に使用できるデータセットのリストを示します。
さらに、文献で報告されている結果は、使用される検証やテストサブセットの違いにより、しばしば相互に比較できないことに気づきました。
この問題に対処するために、同じ検証設定を使用して、一般的に使用されている実際の G​​aze360 データセットに対するいくつかの方法を再評価しました。
実験結果は、最新の方法が最先端の結果を主張しているにもかかわらず、一部の古い方法と比較してパフォーマンスが大幅に劣っていることを示しています。
最後に、静的テスト条件下では時間モデルが静的モデルよりも優れたパフォーマンスを示すことを示します。

要約(オリジナル)

In this paper, we present a survey of deep learning-based methods for the regression of gaze direction vector from head and eye images. We describe in detail numerous published methods with a focus on the input data, architecture of the model, and loss function used to supervise the model. Additionally, we present a list of datasets that can be used to train and evaluate gaze direction regression methods. Furthermore, we noticed that the results reported in the literature are often not comparable one to another due to differences in the validation or even test subsets used. To address this problem, we re-evaluated several methods on the commonly used in-the-wild Gaze360 dataset using the same validation setup. The experimental results show that the latest methods, although claiming state-of-the-art results, significantly underperform compared with some older methods. Finally, we show that the temporal models outperform the static models under static test conditions.

arxiv情報

著者 Franko Šikić,Donik Vršnak,Sven Lončarić
発行日 2024-10-22 15:07:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Survey on Deep Learning-based Gaze Direction Regression: Searching for the State-of-the-art はコメントを受け付けていません

Masked Differential Privacy

要約

プライバシーを保護するコンピューター ビジョンは、機械学習と人工知能において新たに生じた重要な問題です。
この問題に取り組む一般的な方法では、差分プライバシーまたは匿名化および難読化技術を使用して個人のプライバシーを保護しています。
どちらの場合も、トレーニングされたモデルの有用性はこのプロセスで大きく犠牲になります。
この研究では、マスク差分プライバシー (MaskDP) と呼ばれる効果的なアプローチを提案します。これにより、入力全体に DP を適用するのとは対照的に、差分プライバシーが適用される機密領域の制御が可能になります。
私たちの方法はデータに対して選択的に動作し、DP を適用せずに非機密時空間領域を定義したり、データサンプル内で差分プライバシーと他のプライバシー技術を組み合わせたりすることができます。
4 つの困難な行動認識データセットの実験により、私たちが提案する手法は、特に要求の厳しい $\epsilon<1$ 体制における標準的な差分プライベート トレーニングと比較して、ユーティリティとプライバシーのトレードオフが向上することが実証されました。

要約(オリジナル)

Privacy-preserving computer vision is an important emerging problem in machine learning and artificial intelligence. The prevalent methods tackling this problem use differential privacy or anonymization and obfuscation techniques to protect the privacy of individuals. In both cases, the utility of the trained model is sacrificed heavily in this process. In this work, we propose an effective approach called masked differential privacy (MaskDP), which allows for controlling sensitive regions where differential privacy is applied, in contrast to applying DP on the entire input. Our method operates selectively on the data and allows for defining non-sensitive spatio-temporal regions without DP application or combining differential privacy with other privacy techniques within data samples. Experiments on four challenging action recognition datasets demonstrate that our proposed techniques result in better utility-privacy trade-offs compared to standard differentially private training in the especially demanding $\epsilon<1$ regime.

arxiv情報

著者 David Schneider,Sina Sajadmanesh,Vikash Sehwag,Saquib Sarfraz,Rainer Stiefelhagen,Lingjuan Lyu,Vivek Sharma
発行日 2024-10-22 15:22:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.CV, I.4.m | Masked Differential Privacy はコメントを受け付けていません

CLAP: Concave Linear APproximation for Quadratic Graph Matching

要約

ビジュアル データの点ごとの特徴の対応を解決することは、コンピューター ビジョンの基本的な問題です。
この課題に対処する強力なモデルは、グラフ マッチングとして定式化することです。これには、ノード単位およびエッジ単位の制約を持つ二次割り当て問題 (QAP) を解く必要があります。
ただし、このような QAP を解決するには、多数の局所的な極点があるため、費用がかかり、困難になる可能性があります。
この研究では、グラフ マッチングの計算を高速化するために設計された新しい線形モデルとソルバーを紹介します。
具体的には、正の半定値行列近似を使用して構造属性制約を確立します。次に、元の QAP を、最大化のために凹型の線形モデルに変換します。
このモデルは、その後、既存のアプローチと比較して効率と数値安定性が向上したことで知られる Sinkhorn 最適輸送アルゴリズムを使用して解くことができます。
広く使用されているベンチマーク PascalVOC の実験結果は、当社のアルゴリズムが大幅に改善された効率で最先端のパフォーマンスを達成していることを示しています。
ソースコード: https://github.com/xmlyqing00/clap

要約(オリジナル)

Solving point-wise feature correspondence in visual data is a fundamental problem in computer vision. A powerful model that addresses this challenge is to formulate it as graph matching, which entails solving a Quadratic Assignment Problem (QAP) with node-wise and edge-wise constraints. However, solving such a QAP can be both expensive and difficult due to numerous local extreme points. In this work, we introduce a novel linear model and solver designed to accelerate the computation of graph matching. Specifically, we employ a positive semi-definite matrix approximation to establish the structural attribute constraint.We then transform the original QAP into a linear model that is concave for maximization. This model can subsequently be solved using the Sinkhorn optimal transport algorithm, known for its enhanced efficiency and numerical stability compared to existing approaches. Experimental results on the widely used benchmark PascalVOC showcase that our algorithm achieves state-of-the-art performance with significantly improved efficiency. Source code: https://github.com/xmlyqing00/clap

arxiv情報

著者 Yongqing Liang,Huijun Han,Xin Li
発行日 2024-10-22 15:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CLAP: Concave Linear APproximation for Quadratic Graph Matching はコメントを受け付けていません