Embedding an Ethical Mind: Aligning Text-to-Image Synthesis via Lightweight Value Optimization

要約

大規模データでトレーニングされた拡散モデルの最近の進歩により、人間レベルの見分けがつかない画像の生成が可能になりましたが、社会的偏見や攻撃的なコンテンツなど、人間の価値観と一致しない有害なコンテンツが生成されることもよくあります。
大規模言語モデル (LLM) に関する広範な研究にもかかわらず、Text-to-Image (T2I) モデルの位置合わせの課題はほとんど解明されていないままです。
この問題に対処するために、私たちは、T2I モデルを人間の価値観に合わせるための新しい軽量方法である LiVO (Lightweight Value Optimization) を提案します。
LiVO は、指定された値の原則を入力プロンプトと統合するためにプラグアンドプレイ値エンコーダーのみを最適化し、セマンティクスと値の両方にわたって生成されたイメージの制御を可能にします。
具体的には、拡散モデルに合わせたプリファレンス最適化損失を設計します。これは理論的には LLM アライメントで使用される Bradley-Terry モデルに近似しますが、画質と値の適合性の間でより柔軟なトレードオフを提供します。
値エンコーダーを最適化するために、86k (プロンプト、位置合わせ画像、違反画像、価値原理) サンプルのテキスト画像嗜好データセットを自動的に構築するフレームワークも開発します。
ほとんどのモデル パラメーターを更新せずに、入力プロンプトからの適応的な値の選択を通じて、LiVO は有害な出力を大幅に削減し、より迅速な収束を達成し、いくつかの強力なベースラインを超え、倫理的に整合した T2I モデルに向けた最初の一歩を踏み出します。

要約(オリジナル)

Recent advancements in diffusion models trained on large-scale data have enabled the generation of indistinguishable human-level images, yet they often produce harmful content misaligned with human values, e.g., social bias, and offensive content. Despite extensive research on Large Language Models (LLMs), the challenge of Text-to-Image (T2I) model alignment remains largely unexplored. Addressing this problem, we propose LiVO (Lightweight Value Optimization), a novel lightweight method for aligning T2I models with human values. LiVO only optimizes a plug-and-play value encoder to integrate a specified value principle with the input prompt, allowing the control of generated images over both semantics and values. Specifically, we design a diffusion model-tailored preference optimization loss, which theoretically approximates the Bradley-Terry model used in LLM alignment but provides a more flexible trade-off between image quality and value conformity. To optimize the value encoder, we also develop a framework to automatically construct a text-image preference dataset of 86k (prompt, aligned image, violating image, value principle) samples. Without updating most model parameters and through adaptive value selection from the input prompt, LiVO significantly reduces harmful outputs and achieves faster convergence, surpassing several strong baselines and taking an initial step towards ethically aligned T2I models.

arxiv情報

著者 Xingqi Wang,Xiaoyuan Yi,Xing Xie,Jia Jia
発行日 2024-10-16 16:03:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG, cs.MM | Embedding an Ethical Mind: Aligning Text-to-Image Synthesis via Lightweight Value Optimization はコメントを受け付けていません

WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

要約

ビジョン言語モデル (VLM) は、特に英語以外の言語や過小評価されている文化的背景において、文化固有の知識に苦労することがよくあります。
そのような知識の理解を評価するために、多言語および多文化の、視覚に基づいた言語理解のための大規模なベンチマークである WorldCuisines を紹介します。
このベンチマークには、30 の言語と方言にわたるテキストと画像のペアを含むビジュアル質問応答 (VQA) データセットが含まれており、9 つの言語族にまたがり、100 万を超えるデータ ポイントを備えており、これまでで最大の多文化 VQA ベンチマークとなっています。
料理の名前とその由来を特定するタスクが含まれます。
トレーニング データセット (100 万インスタンス) とともに、2 つのサイズ (12,000 インスタンスと 60,000 インスタンス) の評価データセットを提供します。
私たちの調査結果によると、VLM は正しい位置コンテキストではパフォーマンスが向上しますが、敵対的なコンテキストや特定の地域の料理や言語の予測には苦労していることがわかりました。
将来の研究をサポートするために、VQA データとともに注釈付きの食品エントリと画像を含むナレッジ ベースをリリースします。

要約(オリジナル)

Vision Language Models (VLMs) often struggle with culture-specific knowledge, particularly in languages other than English and in underrepresented cultural contexts. To evaluate their understanding of such knowledge, we introduce WorldCuisines, a massive-scale benchmark for multilingual and multicultural, visually grounded language understanding. This benchmark includes a visual question answering (VQA) dataset with text-image pairs across 30 languages and dialects, spanning 9 language families and featuring over 1 million data points, making it the largest multicultural VQA benchmark to date. It includes tasks for identifying dish names and their origins. We provide evaluation datasets in two sizes (12k and 60k instances) alongside a training dataset (1 million instances). Our findings show that while VLMs perform better with correct location context, they struggle with adversarial contexts and predicting specific regional cuisines and languages. To support future research, we release a knowledge base with annotated food entries and images along with the VQA data.

arxiv情報

著者 Genta Indra Winata,Frederikus Hudi,Patrick Amadeus Irawan,David Anugraha,Rifki Afina Putri,Yutong Wang,Adam Nohejl,Ubaidillah Ariq Prathama,Nedjma Ousidhoum,Afifa Amriani,Anar Rzayev,Anirban Das,Ashmari Pramodya,Aulia Adila,Bryan Wilie,Candy Olivia Mawalim,Ching Lam Cheng,Daud Abolade,Emmanuele Chersoni,Enrico Santus,Fariz Ikhwantri,Garry Kuwanto,Hanyang Zhao,Haryo Akbarianto Wibowo,Holy Lovenia,Jan Christian Blaise Cruz,Jan Wira Gotama Putra,Junho Myung,Lucky Susanto,Maria Angelica Riera Machin,Marina Zhukova,Michael Anugraha,Muhammad Farid Adilazuarda,Natasha Santosa,Peerat Limkonchotiwat,Raj Dabre,Rio Alexander Audino,Samuel Cahyawijaya,Shi-Xiong Zhang,Stephanie Yulia Salim,Yi Zhou,Yinxuan Gui,David Ifeoluwa Adelani,En-Shiun Annie Lee,Shogo Okada,Ayu Purwarianti,Alham Fikri Aji,Taro Watanabe,Derry Tanti Wijaya,Alice Oh,Chong-Wah Ngo
発行日 2024-10-16 16:11:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines はコメントを受け付けていません

RAFA-Net: Region Attention Network For Food Items And Agricultural Stress Recognition

要約

深層畳み込みニューラル ネットワーク (CNN) は、さまざまな食品や農業ストレスの認識において目覚ましい成功を収めてきました。
地域ベースの部分特徴記述子のマイニングと分析により、農産物の課題を解決する際に、かなりのパフォーマンスの向上が確認されています。
また、複数の CNN を使用した計算コストの高いアンサンブル学習スキームが以前の研究で研究されています。
この研究では、入力画像内の異なる領域間の相関関係を構築することにより、長距離依存関係をモデル化するための領域注意スキームを提案しています。
アテンション法は、相補的な領域からコンテキスト情報の有用性を学習することで特徴表現を強化します。
空間ピラミッド型プーリングと平均プーリング ペアは、部分的な記述子を全体的な表現に集約します。
どちらのプーリング方法も、追加のパラメーターを発生させることなく、空間的およびチャネルに関する関係を確立します。
コンテキスト ゲーティング スキームを適用して、分類に関連する重み付けされた注意特徴の記述性を洗練します。
RAFA-Net と呼ばれる、食品および農業ストレス認識手法のための提案された地域アテンション ネットワークは、3 つの公共食品データセットで実験され、明確なマージンを備えた最先端のパフォーマンスを達成しました。
RAFA-Net のトップ 1 の最高精度は、UECFood-100、UECFood-256、MAFood-121 データセットでそれぞれ 91.69%、91.56%、96.97% です。
さらに、2 つのベンチマーク農業ストレス データセットでより高い精度が達成されました。
Insect Pest (IP-102) および PlantDoc-27 植物病データセットにおける最高のトップ 1 精度は、それぞれ 92.36% と 85.54% です。
これは RAFA-Net の汎用化機能を暗示しています。

要約(オリジナル)

Deep Convolutional Neural Networks (CNNs) have facilitated remarkable success in recognizing various food items and agricultural stress. A decent performance boost has been witnessed in solving the agro-food challenges by mining and analyzing of region-based partial feature descriptors. Also, computationally expensive ensemble learning schemes using multiple CNNs have been studied in earlier works. This work proposes a region attention scheme for modelling long-range dependencies by building a correlation among different regions within an input image. The attention method enhances feature representation by learning the usefulness of context information from complementary regions. Spatial pyramidal pooling and average pooling pair aggregate partial descriptors into a holistic representation. Both pooling methods establish spatial and channel-wise relationships without incurring extra parameters. A context gating scheme is applied to refine the descriptiveness of weighted attentional features, which is relevant for classification. The proposed Region Attention network for Food items and Agricultural stress recognition method, dubbed RAFA-Net, has been experimented on three public food datasets, and has achieved state-of-the-art performances with distinct margins. The highest top-1 accuracies of RAFA-Net are 91.69%, 91.56%, and 96.97% on the UECFood-100, UECFood-256, and MAFood-121 datasets, respectively. In addition, better accuracies have been achieved on two benchmark agricultural stress datasets. The best top-1 accuracies on the Insect Pest (IP-102) and PlantDoc-27 plant disease datasets are 92.36%, and 85.54%, respectively; implying RAFA-Net’s generalization capability.

arxiv情報

著者 Asish Bera,Ondrej Krejcar,Debotosh Bhattacharjee
発行日 2024-10-16 16:28:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RAFA-Net: Region Attention Network For Food Items And Agricultural Stress Recognition はコメントを受け付けていません

Optimizing 3D Geometry Reconstruction from Implicit Neural Representations

要約

暗黙的なニューラル表現は、3D ジオメトリを学習するための強力なツールとして登場し、メッシュベースの手法などの従来の表現に比べて比類のない利点を提供します。
一般的なタイプの INR は、学習された連続関数のゼロレベルのセットとして形状の境界を暗黙的にエンコードし、低次元の潜在空間からその符号付き距離関数で表されるすべての可能な形状の空間へのマッピングを学習します。
ただし、ほとんどの INR は、正確な幾何学的描写に不可欠な高周波の詳細を保持するのに苦労しており、計算コストが高くなります。
これらの制限に対処するために、計算コストを削減し、詳細のキャプチャを強化する新しいアプローチを提案します。
私たちの方法は、周期的活性化関数、位置エンコーディング、法線をニューラル ネットワーク アーキテクチャに統合します。
この統合により、従来の表現では不十分なことが多かった複雑な詳細や鮮明な特徴を維持しながら、3D 形状の空間全体を学習するモデルの能力が大幅に強化されます。

要約(オリジナル)

Implicit neural representations have emerged as a powerful tool in learning 3D geometry, offering unparalleled advantages over conventional representations like mesh-based methods. A common type of INR implicitly encodes a shape’s boundary as the zero-level set of the learned continuous function and learns a mapping from a low-dimensional latent space to the space of all possible shapes represented by its signed distance function. However, most INRs struggle to retain high-frequency details, which are crucial for accurate geometric depiction, and they are computationally expensive. To address these limitations, we present a novel approach that both reduces computational expenses and enhances the capture of fine details. Our method integrates periodic activation functions, positional encodings, and normals into the neural network architecture. This integration significantly enhances the model’s ability to learn the entire space of 3D shapes while preserving intricate details and sharp features, areas where conventional representations often fall short.

arxiv情報

著者 Shen Fan,Przemyslaw Musialski
発行日 2024-10-16 16:36:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | Optimizing 3D Geometry Reconstruction from Implicit Neural Representations はコメントを受け付けていません

PND-Net: Plant Nutrition Deficiency and Disease Classification using Graph Convolutional Network

要約

さまざまな植物の栄養欠乏や病気が早期に特定され、検出されれば、農業の成長のために作物の収量生産が向上する可能性があります。
深層学習手法は、葉の視覚的症状から植物の病気や栄養不足を自動検出する際に優れたパフォーマンスを発揮することが証明されています。
この記事では、基本畳み込みニューラル ネットワーク (CNN) に追加されたグラフ畳み込みネットワーク (GNN) を使用して、植物の栄養欠乏と病気を分類するための新しい深層学習方法を提案します。
場合によっては、グローバル特徴記述子が病気の葉の重要な領域を捕捉できない場合があり、それが病気の不正確な分類の原因となります。
この問題に対処するには、全体的な特徴の集約には地域特徴の学習が不可欠です。
この研究では、識別的な特徴表現のための空間ピラミッド プーリングを使用して、マルチスケールでの領域ベースの特徴の要約を検討します。
GCN は、植物の病気や栄養素の不足を分類するための詳細を学習できるように開発されました。
Plant Nutrition Deficiency and病気ネットワーク (PND-Net) と呼ばれる提案された方法は、栄養欠乏については 2 つの公開データセットで評価され、4 つの CNN を使用して病気分類については 2 つの公開データセットで評価されます。
最良の分類結果は次のとおりです。 (a) 90.00% のバナナと 90.54% のコーヒーの栄養欠乏。
(b) ジャガイモの病気が 96.18%、Xception バックボーンを使用した PlantDoc データセットでは 84.30%。
さらに、一般化のために追加の実験が行われ、提案された方法は、乳がん組織病理学画像分類という 2 つの公開データセットで最先端のパフォーマンスを達成しました (BreakHis 40X: 95.50%、BreakHis 100X: 96.79%)。
精度)および子宮頸がん分類のためのパプスメア画像内の単一細胞(SIPaKMeD: 99.18% 精度)。
また、PND-Net は 5 分割相互検証を使用してパフォーマンスの向上を実現します。

要約(オリジナル)

Crop yield production could be enhanced for agricultural growth if various plant nutrition deficiencies, and diseases are identified and detected at early stages. The deep learning methods have proven its superior performances in the automated detection of plant diseases and nutrition deficiencies from visual symptoms in leaves. This article proposes a new deep learning method for plant nutrition deficiencies and disease classification using a graph convolutional network (GNN), added upon a base convolutional neural network (CNN). Sometimes, a global feature descriptor might fail to capture the vital region of a diseased leaf, which causes inaccurate classification of disease. To address this issue, regional feature learning is crucial for a holistic feature aggregation. In this work, region-based feature summarization at multi-scales is explored using spatial pyramidal pooling for discriminative feature representation. A GCN is developed to capacitate learning of finer details for classifying plant diseases and insufficiency of nutrients. The proposed method, called Plant Nutrition Deficiency and Disease Network (PND-Net), is evaluated on two public datasets for nutrition deficiency, and two for disease classification using four CNNs. The best classification performances are: (a) 90.00% Banana and 90.54% Coffee nutrition deficiency; and (b) 96.18% Potato diseases and 84.30% on PlantDoc datasets using Xception backbone. Furthermore, additional experiments have been carried out for generalization, and the proposed method has achieved state-of-the-art performances on two public datasets, namely the Breast Cancer Histopathology Image Classification (BreakHis 40X: 95.50%, and BreakHis 100X: 96.79% accuracy) and Single cells in Pap smear images for cervical cancer classification (SIPaKMeD: 99.18% accuracy). Also, PND-Net achieves improved performances using five-fold cross validation.

arxiv情報

著者 Asish Bera,Debotosh Bhattacharjee,Ondrej Krejcar
発行日 2024-10-16 17:01:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PND-Net: Plant Nutrition Deficiency and Disease Classification using Graph Convolutional Network はコメントを受け付けていません

Preserving Cardiac Integrity: A Topology-Infused Approach to Whole Heart Segmentation

要約

全心臓セグメンテーション (WHS) は、心血管疾患 (CVD) の診断、疾患のモニタリング、治療計画、および予後をサポートします。
深層学習は、近年、WHS アプリケーションで最も広く使用される手法となっています。
しかし、心臓全体の構造のセグメンテーションは、心周期中の心臓形状の変動、動きや低いコントラスト対ノイズ比などの臨床アーチファクト、多施設データのドメインシフト、CT と MRI の異なるモダリティなど、多くの課題に直面しています。
これらの制限に対処し、セグメンテーションの品質を向上させるために、このホワイトペーパーでは、ディープ ニューラル ネットワークに統合される新しいトポロジ保持モジュールを紹介します。
この実装では、学習されたトポロジ保持フィールドを使用することで解剖学的に妥当なセグメンテーションが実現されます。このフィールドは完全に 3D 畳み込みに基づいているため、3D ボクセル データに対して非常に効果的です。
構造間の自然な制約をエンドツーエンドのトレーニングに組み込み、ニューラル ネットワークの特徴表現を強化します。
提案された方法の有効性は、オープンソースの医療用心臓データセット、特に WHS++ データを使用して検証されます。
結果は、このアーキテクチャが非常に優れたパフォーマンスを発揮し、テスト中に Dice 係数 0.939 を達成したことを示しています。
これは、個々の構造のトポロジが完全に保存されていることを示しており、シーン全体のトポロジの保存において他のベースラインを大幅に上回っています。

要約(オリジナル)

Whole heart segmentation (WHS) supports cardiovascular disease (CVD) diagnosis, disease monitoring, treatment planning, and prognosis. Deep learning has become the most widely used method for WHS applications in recent years. However, segmentation of whole-heart structures faces numerous challenges including heart shape variability during the cardiac cycle, clinical artifacts like motion and poor contrast-to-noise ratio, domain shifts in multi-center data, and the distinct modalities of CT and MRI. To address these limitations and improve segmentation quality, this paper introduces a new topology-preserving module that is integrated into deep neural networks. The implementation achieves anatomically plausible segmentation by using learned topology-preserving fields, which are based entirely on 3D convolution and are therefore very effective for 3D voxel data. We incorporate natural constraints between structures into the end-to-end training and enrich the feature representation of the neural network. The effectiveness of the proposed method is validated on an open-source medical heart dataset, specifically using the WHS++ data. The results demonstrate that the architecture performs exceptionally well, achieving a Dice coefficient of 0.939 during testing. This indicates full topology preservation for individual structures and significantly outperforms other baselines in preserving the overall scene topology.

arxiv情報

著者 Chenyu Zhang,Wenxue Guan,Xiaodan Xing,Guang Yang
発行日 2024-10-16 17:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Preserving Cardiac Integrity: A Topology-Infused Approach to Whole Heart Segmentation はコメントを受け付けていません

SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation

要約

拡散モデルの最近の進歩により、高品質の画像やビデオを生成する能力が大幅に向上しましたが、安全でないコンテンツが作成されるリスクも増加しました。
安全な生成のための既存の非学習/編集ベースの方法は、モデルから有害な概念を削除しますが、いくつかの課題に直面しています。 (1) トレーニングなしで有害な概念を即座に削除することはできません。
(2) それらの安全な生成能力は、収集されたトレーニング データに依存します。
(3) モデルの重みを変更するため、有害な概念に関係のないコンテンツの品質が低下する危険があります。
これらに対処するために、モデルの重みを変更しない、安全な T2I および T2V のためのトレーニング不要の新しいアプローチである SAFREE を提案します。
具体的には、テキスト埋め込み空間内の一連の有害な概念に対応する部分空間を検出し、プロンプト埋め込みをこの部分空間から遠ざけるように誘導し、それによって意図されたセマンティクスを維持しながら有害なコンテンツを除外します。
フィルタリングの毒性と安全な概念の維持の間のトレードオフのバランスをとるために、SAFREE には、フィルタリングされた埋め込みを適用するときにノイズ除去ステップを動的に調整する新しい自己検証型フィルタリング メカニズムが組み込まれています。
さらに、拡散潜在空間内に適応型再注意メカニズムを組み込んで、有害な概念に関連する特徴の影響をピクセルレベルで選択的に低減します。
最終的に、SAFREE は一貫した安全性チェックを保証し、出力の忠実性、品質、安全性を維持します。
SAFREE は、トレーニング不要のベースラインと比較して、T2I 生成で安全でないコンテンツを抑制する SOTA パフォーマンスを実現し、高品質の画像を維持しながら、対象となるコンセプトを効果的にフィルタリングします。
また、トレーニングベースの方法と比較して優れた結果も示しています。
SAFREE をさまざまな T2I バックボーンおよび T2V タスクに拡張し、その柔軟性と汎用性を示します。
SAFREE は、安全なビジュアル生成を保証するための堅牢で適応性のある保護手段を提供します。

要約(オリジナル)

Recent advances in diffusion models have significantly enhanced their ability to generate high-quality images and videos, but they have also increased the risk of producing unsafe content. Existing unlearning/editing-based methods for safe generation remove harmful concepts from models but face several challenges: (1) They cannot instantly remove harmful concepts without training. (2) Their safe generation capabilities depend on collected training data. (3) They alter model weights, risking degradation in quality for content unrelated to toxic concepts. To address these, we propose SAFREE, a novel, training-free approach for safe T2I and T2V, that does not alter the model’s weights. Specifically, we detect a subspace corresponding to a set of toxic concepts in the text embedding space and steer prompt embeddings away from this subspace, thereby filtering out harmful content while preserving intended semantics. To balance the trade-off between filtering toxicity and preserving safe concepts, SAFREE incorporates a novel self-validating filtering mechanism that dynamically adjusts the denoising steps when applying the filtered embeddings. Additionally, we incorporate adaptive re-attention mechanisms within the diffusion latent space to selectively diminish the influence of features related to toxic concepts at the pixel level. In the end, SAFREE ensures coherent safety checking, preserving the fidelity, quality, and safety of the output. SAFREE achieves SOTA performance in suppressing unsafe content in T2I generation compared to training-free baselines and effectively filters targeted concepts while maintaining high-quality images. It also shows competitive results against training-based methods. We extend SAFREE to various T2I backbones and T2V tasks, showcasing its flexibility and generalization. SAFREE provides a robust and adaptable safeguard for ensuring safe visual generation.

arxiv情報

著者 Jaehong Yoon,Shoubin Yu,Vaidehi Patil,Huaxiu Yao,Mohit Bansal
発行日 2024-10-16 17:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation はコメントを受け付けていません

Gravity-aligned Rotation Averaging with Circular Regression

要約

順序付けされていない画像から 3D シーンを再構成することは、コンピュータ ビジョンとロボット工学において極めて重要であり、アプリケーションはクラウドソースのマッピングやそれ以外にも多岐にわたります。
グローバルな Structure-from-Motion (SfM) 技術はスケーラブルで高速ですが、精度が犠牲になることがよくあります。
これに対処するために、グローバル パイプラインの回転平均化フェーズに重力方向を統合し、カメラの向きの精度を高め、自由度を減らす原則的なアプローチを導入します。
この追加情報は、スマートフォン、複合現実デバイス、ドローンなどの最近の民生用デバイスで一般的に利用できるため、提案された方法に簡単にアクセスできるようになります。
循環回帰に基づいた当社のアルゴリズムは、線形回帰と同様の収束保証を備えています。
また、カメラのサブセットのみが既知の重力を持っているシナリオもサポートします。
さらに、エラーが発生しやすい重力を改良するメカニズムを提案します。
4 つの大規模なデータセットで最先端の精度を実現します。
特に、提案された方法は、SfM ベースラインを平均 13 AUC@$1^\circ$ ポイント改善し、8 倍高速に実行されます。
また、標準的な平面ポーズ グラフ最適化手法よりも 23 AUC@$1^\circ$ ポイント優れています。
コードは https://github.com/colmap/glomap にあります。

要約(オリジナル)

Reconstructing a 3D scene from unordered images is pivotal in computer vision and robotics, with applications spanning crowd-sourced mapping and beyond. While global Structure-from-Motion (SfM) techniques are scalable and fast, they often compromise on accuracy. To address this, we introduce a principled approach that integrates gravity direction into the rotation averaging phase of global pipelines, enhancing camera orientation accuracy and reducing the degrees of freedom. This additional information is commonly available in recent consumer devices, such as smartphones, mixed-reality devices and drones, making the proposed method readily accessible. Rooted in circular regression, our algorithm has similar convergence guarantees as linear regression. It also supports scenarios where only a subset of cameras have known gravity. Additionally, we propose a mechanism to refine error-prone gravity. We achieve state-of-the-art accuracy on four large-scale datasets. Particularly, the proposed method improves upon the SfM baseline by 13 AUC@$1^\circ$ points, on average, while running eight times faster. It also outperforms the standard planar pose graph optimization technique by 23 AUC@$1^\circ$ points. The code is at https://github.com/colmap/glomap.

arxiv情報

著者 Linfei Pan,Marc Pollefeys,Dániel Baráth
発行日 2024-10-16 17:37:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Gravity-aligned Rotation Averaging with Circular Regression はコメントを受け付けていません

Towards Zero-Shot Camera Trap Image Categorization

要約

この論文では、カメラ トラップ画像の自動分類に対する代替アプローチの探索について説明します。
まず、すべての画像に対して単一のモデルを使用して、最先端の分類器のベンチマークを行います。
次に、MegaDetector と 1 つ以上の分類器および Segment Anything を組み合わせたメソッドを評価し、場所固有の過剰適合の削減に対するその影響を評価します。
最後に、ゼロショット シナリオで、DINOv2、BioCLIP、BLIP、ChatGPT などの大規模な言語と基本モデルを使用する 2 つのアプローチを提案し、テストします。
2 つの公的に利用可能なデータセット (ニュージーランドの WCT、米国南西部の CCT20) とプライベート データセット (中央ヨーロッパの CEF) に対して実行された評価により、MegaDetector と 2 つの別個の分類器を組み合わせることで最高の精度が達成されることが明らかになりました。
このアプローチにより、単一の BEiTV2 分類器の相対誤差が CCT20 で約 42\%、CEF で 48\%、WCT で 75\% 減少しました。
さらに、背景が除去されると、新しい位置での精度の誤差は半分に減ります。
DINOv2 と FAISS に基づいて提案されたゼロショット パイプラインは、競合する結果 (CCT20 と CEF でそれぞれ 1.0\% と 4.7\% 小さい) を達成しました。これは、カメラ トラップ画像分類におけるゼロショット アプローチの可能性を強調しています。

要約(オリジナル)

This paper describes the search for an alternative approach to the automatic categorization of camera trap images. First, we benchmark state-of-the-art classifiers using a single model for all images. Next, we evaluate methods combining MegaDetector with one or more classifiers and Segment Anything to assess their impact on reducing location-specific overfitting. Last, we propose and test two approaches using large language and foundational models, such as DINOv2, BioCLIP, BLIP, and ChatGPT, in a zero-shot scenario. Evaluation carried out on two publicly available datasets (WCT from New Zealand, CCT20 from the Southwestern US) and a private dataset (CEF from Central Europe) revealed that combining MegaDetector with two separate classifiers achieves the highest accuracy. This approach reduced the relative error of a single BEiTV2 classifier by approximately 42\% on CCT20, 48\% on CEF, and 75\% on WCT. Besides, as the background is removed, the error in terms of accuracy in new locations is reduced to half. The proposed zero-shot pipeline based on DINOv2 and FAISS achieved competitive results (1.0\% and 4.7\% smaller on CCT20, and CEF, respectively), which highlights the potential of zero-shot approaches for camera trap image categorization.

arxiv情報

著者 Jiří Vyskočil,Lukas Picek
発行日 2024-10-16 17:44:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Zero-Shot Camera Trap Image Categorization はコメントを受け付けていません

Meta-Unlearning on Diffusion Models: Preventing Relearning Unlearned Concepts

要約

拡散ベースのコンテンツ生成の急速な進歩に伴い、モデルの誤用の可能性を防ぐために、事前トレーニングされた拡散モデル (DM) から有害な概念や著作権で保護された概念を取り除くために多大な努力が払われています。
ただし、DM がリリース前に適切に学習されていない場合でも、悪意のある微調整によってこのプロセスが侵害され、DM が未学習の概念を再学習する可能性があることが観察されています。
これは、DM に保持されている特定の無害な概念 (例: 「肌」) が未学習の概念 (例: 「ヌード」) に関連しており、微調整によって再学習が容易になることが部分的に原因です。
これに対処するために、DM でのメタアンラーニングを提案します。
直感的には、メタ未学習 DM は、そのまま使用すると未学習 DM と同様に動作するはずです。
さらに、メタ未学習DMが未学習概念に対して悪意のある微調整を受けると、その中に保持されている関連する良性の概念が自己破壊を引き起こし、未学習概念の再学習が妨げられます。
私たちのメタアンラーニングフレームワークは、ほとんどの既存のアンラーニング手法と互換性があり、実装が簡単なメタ目標を追加するだけで済みます。
広範なアブレーション研究によって裏付けられた安定拡散モデル (SD-v1-4 および SDXL) からのメタアンラーニング概念に関する実証実験を通じて、私たちのアプローチを検証します。
私たちのコードは https://github.com/sail-sg/Meta-Unlearning で入手できます。

要約(オリジナル)

With the rapid progress of diffusion-based content generation, significant efforts are being made to unlearn harmful or copyrighted concepts from pretrained diffusion models (DMs) to prevent potential model misuse. However, it is observed that even when DMs are properly unlearned before release, malicious finetuning can compromise this process, causing DMs to relearn the unlearned concepts. This occurs partly because certain benign concepts (e.g., ‘skin’) retained in DMs are related to the unlearned ones (e.g., ‘nudity’), facilitating their relearning via finetuning. To address this, we propose meta-unlearning on DMs. Intuitively, a meta-unlearned DM should behave like an unlearned DM when used as is; moreover, if the meta-unlearned DM undergoes malicious finetuning on unlearned concepts, the related benign concepts retained within it will be triggered to self-destruct, hindering the relearning of unlearned concepts. Our meta-unlearning framework is compatible with most existing unlearning methods, requiring only the addition of an easy-to-implement meta objective. We validate our approach through empirical experiments on meta-unlearning concepts from Stable Diffusion models (SD-v1-4 and SDXL), supported by extensive ablation studies. Our code is available at https://github.com/sail-sg/Meta-Unlearning.

arxiv情報

著者 Hongcheng Gao,Tianyu Pang,Chao Du,Taihang Hu,Zhijie Deng,Min Lin
発行日 2024-10-16 17:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.CV, cs.LG | Meta-Unlearning on Diffusion Models: Preventing Relearning Unlearned Concepts はコメントを受け付けていません