Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions

要約

広範な安全整合の取り組みにもかかわらず、大規模な言語モデル(LLM)は、有害な行動を引き出す脱獄攻撃に対して脆弱なままです。
既存の研究は主に技術的な専門知識を必要とする攻撃方法に焦点を当てていますが、2つの重要な質問は未把握のままです。
(2)安全脆弱性は、より一般的で単純な人間の相互作用に存在しますか?
この論文では、LLM応答が実用的で有益なものである場合に有害なアクションを最も効果的に促進することを実証します – 多段階の多言語的相互作用で簡単に誘発される2つの属性。
この洞察を使用して、LLM応答がどれほど効果的に有害なアクションを可能にし、簡単なマルチステップの多言語攻撃フレームワークを簡単に発言できるかを測定する脱獄メトリックであるHarmscoreを提案します。
特に、Speakを簡単に直接リクエストと脱獄ベースラインに組み込むことにより、4つの安全ベンチマークにわたってオープンソースと独自のLLMの両方で、攻撃成功率が0.319、Harmscoreの0.426の平均絶対的な増加が見られます。
私たちの仕事は、重要でありながら見落とされがちな脆弱性を明らかにしています。悪意のあるユーザーは、有害な意図のために一般的な相互作用パターンを簡単に活用できます。

要約(オリジナル)

Despite extensive safety alignment efforts, large language models (LLMs) remain vulnerable to jailbreak attacks that elicit harmful behavior. While existing studies predominantly focus on attack methods that require technical expertise, two critical questions remain underexplored: (1) Are jailbroken responses truly useful in enabling average users to carry out harmful actions? (2) Do safety vulnerabilities exist in more common, simple human-LLM interactions? In this paper, we demonstrate that LLM responses most effectively facilitate harmful actions when they are both actionable and informative–two attributes easily elicited in multi-step, multilingual interactions. Using this insight, we propose HarmScore, a jailbreak metric that measures how effectively an LLM response enables harmful actions, and Speak Easy, a simple multi-step, multilingual attack framework. Notably, by incorporating Speak Easy into direct request and jailbreak baselines, we see an average absolute increase of 0.319 in Attack Success Rate and 0.426 in HarmScore in both open-source and proprietary LLMs across four safety benchmarks. Our work reveals a critical yet often overlooked vulnerability: Malicious users can easily exploit common interaction patterns for harmful intentions.

arxiv情報

著者 Yik Siu Chan,Narutatsu Ri,Yuxin Xiao,Marzyeh Ghassemi
発行日 2025-02-06 18:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions はコメントを受け付けていません

A Self-supervised Multimodal Deep Learning Approach to Differentiate Post-radiotherapy Progression from Pseudoprogression in Glioblastoma

要約

膠芽腫(GBM)患者の放射線療法(RT)後の真の進行(TP)からの擬似プログレッション(PSP)の正確な分化は、最適な治療計画に不可欠です。
ただし、PSPとTPのイメージング特性が重複しているため、このタスクは依然として困難です。
したがって、この研究は、予測精度を改善するために、日常的な解剖学的MR画像、臨床パラメーター、およびRT治療計画情報からの補完的な情報を利用するマルチモーダルの深部学習アプローチを提案しています。
このアプローチは、自己監視視力変圧器(VIT)を利用して、マルチシーケンスMR脳の量をエンコードして、高次元の入力からグローバルおよびローカルの両方のコンテキストを効果的にキャプチャします。
エンコーダーは、Open Brats2021、Upenn-GBM、およびUCSF-PDGMデータセットからの非標識神経膠腫MRIデータセットの自己監視上の上流タスクでトレーニングされ、FlairおよびT1コントラスト後のシーケンスからコンパクトで臨床的に関連する表現を生成します。
次に、これらのエンコードされたMR入力は、ガイド付きクロスモーダルの注意を払って臨床データおよびRT治療計画情報と統合され、進行分類の精度が向上します。
この作業は、さまざまなセンターの2つのデータセットを使用して開発されました。トレーニングと検証のためのBurdenko Glioblastoma進行データセット(n = 59)と、テスト用の大学病院Erlangen(uker)(n = 20)のGLIOCMV進行データセットです。
提案された方法は75.3%のAUCを達成し、現在の最先端のデータ駆動型アプローチを上回りました。
重要なことに、提案されたアプローチは、容易に利用可能な解剖学的MRIシーケンス、臨床データ、およびRT治療計画情報に依存しており、その臨床的実現可能性を高めます。
提案されたアプローチは、PSPおよびTP分化の限られたデータの可用性の課題に対処し、GBM患者の臨床的意思決定と最適化された治療計画の改善を可能にする可能性があります。

要約(オリジナル)

Accurate differentiation of pseudoprogression (PsP) from True Progression (TP) following radiotherapy (RT) in glioblastoma (GBM) patients is crucial for optimal treatment planning. However, this task remains challenging due to the overlapping imaging characteristics of PsP and TP. This study therefore proposes a multimodal deep-learning approach utilizing complementary information from routine anatomical MR images, clinical parameters, and RT treatment planning information for improved predictive accuracy. The approach utilizes a self-supervised Vision Transformer (ViT) to encode multi-sequence MR brain volumes to effectively capture both global and local context from the high dimensional input. The encoder is trained in a self-supervised upstream task on unlabeled glioma MRI datasets from the open BraTS2021, UPenn-GBM, and UCSF-PDGM datasets to generate compact, clinically relevant representations from FLAIR and T1 post-contrast sequences. These encoded MR inputs are then integrated with clinical data and RT treatment planning information through guided cross-modal attention, improving progression classification accuracy. This work was developed using two datasets from different centers: the Burdenko Glioblastoma Progression Dataset (n = 59) for training and validation, and the GlioCMV progression dataset from the University Hospital Erlangen (UKER) (n = 20) for testing. The proposed method achieved an AUC of 75.3%, outperforming the current state-of-the-art data-driven approaches. Importantly, the proposed approach relies on readily available anatomical MRI sequences, clinical data, and RT treatment planning information, enhancing its clinical feasibility. The proposed approach addresses the challenge of limited data availability for PsP and TP differentiation and could allow for improved clinical decision-making and optimized treatment plans for GBM patients.

arxiv情報

著者 Ahmed Gomaa,Yixing Huang,Pluvio Stephan,Katharina Breininger,Benjamin Frey,Arnd Dörfler,Oliver Schnell,Daniel Delev,Roland Coras,Charlotte Schmitter,Jenny Stritzelberger,Sabine Semrau,Andreas Maier,Siming Bayer,Stephan Schönecker,Dieter H Heiland,Peter Hau,Udo S. Gaipl,Christoph Bert,Rainer Fietkau,Manuel A. Schmidt,Florian Putz
発行日 2025-02-06 11:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A Self-supervised Multimodal Deep Learning Approach to Differentiate Post-radiotherapy Progression from Pseudoprogression in Glioblastoma はコメントを受け付けていません

Enhancing people localisation in drone imagery for better crowd management by utilising every pixel in high-resolution images

要約

ドローンを使用した正確な人々のローカリゼーションは、大規模なイベントや公開の集まりだけでなく、毎日の都市の群衆の流れを監視するためにも、効果的な群衆管理に重要です。
高解像度のドローン画像を使用した小さなオブジェクトのローカリゼーションの従来の方法は、主に画像スケーリングとスライドウィンドウのテクニックの制約が原因で、精度と効率の制限に直面することがよくあります。
これらの課題に対処するために、点指向のオブジェクトのローカリゼーションに特化した新しいアプローチが提案されています。
このアプローチに加えて、ピクセル蒸留モジュールが導入され、個々のピクセルから一度に空間情報を抽出することにより、高解像度画像の処理を強化します。
さらに、現代のドローンアプリケーションに合わせたアップカウントという名前の新しいデータセットが共有されています。
ドローン画像の幅広い課題に対処します。たとえば、画像取得プロセス中のカメラとオブジェクトの動きなど、群衆管理アプリケーションの機能を推し進めます。
提案されたデータセットと一般的に使用されるDroneCrowdデータセットに関する提案された方法の包括的な評価は、既存の方法に対するアプローチの優位性を示し、ドローンベースの群衆オブジェクトのローカリゼーションタスクにおけるその有効性を強調しています。
これらの改善により、アルゴリズムが実際のシナリオで動作するための適用性が著しく増加し、動的環境でのより信頼性の高いローカリゼーションと個人のカウントを可能にします。

要約(オリジナル)

Accurate people localisation using drones is crucial for effective crowd management, not only during massive events and public gatherings but also for monitoring daily urban crowd flow. Traditional methods for tiny object localisation using high-resolution drone imagery often face limitations in precision and efficiency, primarily due to constraints in image scaling and sliding window techniques. To address these challenges, a novel approach dedicated to point-oriented object localisation is proposed. Along with this approach, the Pixel Distill module is introduced to enhance the processing of high-definition images by extracting spatial information from individual pixels at once. Additionally, a new dataset named UP-COUNT, tailored to contemporary drone applications, is shared. It addresses a wide range of challenges in drone imagery, such as simultaneous camera and object movement during the image acquisition process, pushing forward the capabilities of crowd management applications. A comprehensive evaluation of the proposed method on the proposed dataset and the commonly used DroneCrowd dataset demonstrates the superiority of our approach over existing methods and highlights its efficacy in drone-based crowd object localisation tasks. These improvements markedly increase the algorithm’s applicability to operate in real-world scenarios, enabling more reliable localisation and counting of individuals in dynamic environments.

arxiv情報

著者 Bartosz Ptak,Marek Kraft
発行日 2025-02-06 12:16:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Enhancing people localisation in drone imagery for better crowd management by utilising every pixel in high-resolution images はコメントを受け付けていません

Composing Novel Classes: A Concept-Driven Approach to Generalized Category Discovery

要約

一般化されたカテゴリ発見(GCD)問題に取り組みます。これは、既知のクラスの知識を活用することにより、非標識データセットで新しいクラスを発見することを目的としています。
以前の作品は、共有表現スペースを通じて既知のクラス知識を利用しています。
それらの進歩にもかかわらず、私たちの分析実験は、新しいクラスが既知のクラスの事前訓練モデルの特徴空間で印象的なクラスタリング結果を達成できることを示しており、既存の方法が既知のクラス知識を完全に利用しないことを示唆しています。
それに対処するために、ConceptGCDという名前のGCDの新しいコンセプト学習フレームワークを紹介します。これは、概念を2つのタイプに分類し、既知のクラスの概念から派生可能かつ過小評価できる2つのタイプに分類し、それらを個別に学習するための段階的な学習戦略を採用します。
具体的には、私たちのフレームワークは、最初に既知のクラスの事前訓練モデルによって既知のクラスの概念を抽出し、次に共分散型の損失を伴うジェネレーター層によって派生可能な概念を生成します。
その後、ジェネレーターレイヤーを拡張して、概念スコア正規化戦略によって確保されたバランスの取れた方法で潜在的な概念を学習し、対照的な損失を統合して、以前に学習した概念を維持します。
さまざまなベンチマークデータセットでの広範な実験は、以前の最先端の方法に対するアプローチの優位性を示しています。
コードはまもなく利用可能になります。

要約(オリジナル)

We tackle the generalized category discovery (GCD) problem, which aims to discover novel classes in unlabeled datasets by leveraging the knowledge of known classes. Previous works utilize the known class knowledge through shared representation spaces. Despite their progress, our analysis experiments show that novel classes can achieve impressive clustering results on the feature space of a known class pre-trained model, suggesting that existing methods may not fully utilize known class knowledge. To address it, we introduce a novel concept learning framework for GCD, named ConceptGCD, that categorizes concepts into two types: derivable and underivable from known class concepts, and adopts a stage-wise learning strategy to learn them separately. Specifically, our framework first extracts known class concepts by a known class pre-trained model and then produces derivable concepts from them by a generator layer with a covariance-augmented loss. Subsequently, we expand the generator layer to learn underivable concepts in a balanced manner ensured by a concept score normalization strategy and integrate a contrastive loss to preserve previously learned concepts. Extensive experiments on various benchmark datasets demonstrate the superiority of our approach over the previous state-of-the-art methods. Code will be available soon.

arxiv情報

著者 Chuyu Zhang,Peiyan Gu,Xueyang Yu,Xuming He
発行日 2025-02-06 12:17:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Composing Novel Classes: A Concept-Driven Approach to Generalized Category Discovery はコメントを受け付けていません

Deep Height Decoupling for Precise Vision-based 3D Occupancy Prediction

要約

ビジョンベースの3D占有予測のタスクは、3Dジオメトリを再構築し、2Dから3Dへのビュー変換が不可欠なステップである2Dカラー画像からセマンティッククラスを推定することを目的としています。
以前のほとんどの方法では、2D画像機能を3DグリッドにマッピングするBevpoolingやVoxelpoolingなど、前方投影を行います。
ただし、特定の高さ範囲内の機能を表す現在のグリッドは、通常、他の高さ範囲に属する多くの混乱する機能を導入します。
この課題に対処するために、紛らわしい機能を除外する前に明示的な高さを組み込んだ新しいフレームワークである深い高さ分離(DHD)を提示します。
具体的には、DHDは最初に明示的な監督を介して高さマップを予測します。
高さ分布統計に基づいて、DHDはマスクガイドハイトサンプリング(MGHS)を設計して、高さマップを複数のバイナリマスクに適応的に分離します。
MGHSは、2D画像機能を複数のサブスペースに投影します。各グリッドには、妥当な高さ範囲内の機能が含まれています。
最後に、相乗的特徴集約(SFA)モジュールが展開され、チャネルと空間的親和性を介して特徴表現を強化し、さらに占有率の洗練を可能にします。
人気のあるOcc3D-Nuscenesベンチマークでは、入力フレームが最小限であっても、最先端のパフォーマンスを実現します。
ソースコードはhttps://github.com/yanzq95/dhdでリリースされます。

要約(オリジナル)

The task of vision-based 3D occupancy prediction aims to reconstruct 3D geometry and estimate its semantic classes from 2D color images, where the 2D-to-3D view transformation is an indispensable step. Most previous methods conduct forward projection, such as BEVPooling and VoxelPooling, both of which map the 2D image features into 3D grids. However, the current grid representing features within a certain height range usually introduces many confusing features that belong to other height ranges. To address this challenge, we present Deep Height Decoupling (DHD), a novel framework that incorporates explicit height prior to filter out the confusing features. Specifically, DHD first predicts height maps via explicit supervision. Based on the height distribution statistics, DHD designs Mask Guided Height Sampling (MGHS) to adaptively decouple the height map into multiple binary masks. MGHS projects the 2D image features into multiple subspaces, where each grid contains features within reasonable height ranges. Finally, a Synergistic Feature Aggregation (SFA) module is deployed to enhance the feature representation through channel and spatial affinities, enabling further occupancy refinement. On the popular Occ3D-nuScenes benchmark, our method achieves state-of-the-art performance even with minimal input frames. Source code is released at https://github.com/yanzq95/DHD.

arxiv情報

著者 Yuan Wu,Zhiqiang Yan,Zhengxue Wang,Xiang Li,Le Hui,Jian Yang
発行日 2025-02-06 12:30:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Deep Height Decoupling for Precise Vision-based 3D Occupancy Prediction はコメントを受け付けていません

MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition

要約

人間の活動認識(HAR)は、ヘルスケア、スポーツ、フィットネス、セキュリティなど、幅広い分野のアプリケーションを備えた人工知能における長年の問題です。
現実世界の設定におけるHARのパフォーマンスは、取得できる入力信号のタイプと品質に強く依存しています。
シーンの遮るもののない高品質のカメラビューを考えると、特にファンデーションモデルと併せてコンピュータービジョンシステムは、今日では複雑なアクティビティをかなり確実に区別できます。
一方、ウェアラブルセンサーなどのモダリティを使用した認識(携帯電話やスマートウォッチなど、より広く利用可能なことが多いことが多いことが多い)は、より少ない情報が含まれており、ラベル付けされたトレーニングデータを取得するのが難しいため、より困難な問題です。

ラベル付きデータの必要性を軽減するために、この作業に包括的なフィットネスマルチモーダルアクティビティデータセット(FIMAD)を紹介します。これは、提案された事前トレーニング方法Mujo(マルチモーダルジョイントフィーチャスペース学習)で使用して、さまざまなモダリティにわたってHARパフォーマンスを強化できます。
FimadはYouTube Fitnessビデオを使用して作成され、並行ビデオ、言語、ポーズ、およびシミュレートされたIMUセンサーデータが含まれています。
Mujoはこのデータセットを利用して、これらのモダリティの共同機能スペースを学習します。
Fimadで事前に訓練された分類器が、MM-Fit、Myogym、Motionsense、MHealthなどの実際のHARデータセットのパフォーマンスを向上させることができることを示しています。
たとえば、MM-Fitでは、トレーニングデータの2%のみで微調整されている場合は最大0.855のマクロF1スコア、分類タスクに完全なトレーニングセットを利用する場合は0.942を達成します。
私たちのアプローチを他の自己監督のものと比較し、それらとは異なり、ベースラインネットワークのパフォーマンスと比較して一貫して改善すると同時に、データ効率を向上させることを示しています。

要約(オリジナル)

Human activity recognition (HAR) is a long-standing problem in artificial intelligence with applications in a broad range of areas, including healthcare, sports and fitness, security, and more. The performance of HAR in real-world settings is strongly dependent on the type and quality of the input signal that can be acquired. Given an unobstructed, high-quality camera view of a scene, computer vision systems, in particular in conjunction with foundation models, can today fairly reliably distinguish complex activities. On the other hand, recognition using modalities such as wearable sensors (which are often more broadly available, e.g., in mobile phones and smartwatches) is a more difficult problem, as the signals often contain less information and labeled training data is more difficult to acquire. To alleviate the need for labeled data, we introduce our comprehensive Fitness Multimodal Activity Dataset (FiMAD) in this work, which can be used with the proposed pre-training method MuJo (Multimodal Joint Feature Space Learning) to enhance HAR performance across various modalities. FiMAD was created using YouTube fitness videos and contains parallel video, language, pose, and simulated IMU sensor data. MuJo utilizes this dataset to learn a joint feature space for these modalities. We show that classifiers pre-trained on FiMAD can increase the performance on real HAR datasets such as MM-Fit, MyoGym, MotionSense, and MHEALTH. For instance, on MM-Fit, we achieve a Macro F1-Score of up to 0.855 when fine-tuning on only 2% of the training data and 0.942 when utilizing the complete training set for classification tasks. We compare our approach with other self-supervised ones and show that, unlike them, ours consistently improves compared to the baseline network performance while also providing better data efficiency.

arxiv情報

著者 Stefan Gerd Fritsch,Cennet Oguz,Vitor Fortes Rey,Lala Ray,Maximilian Kiefer-Emmanouilidis,Paul Lukowicz
発行日 2025-02-06 12:37:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition はコメントを受け付けていません

Beyond Random Augmentations: Pretraining with Hard Views

要約

自己教師の学習(SSL)メソッドは、通常、ランダムな画像の増強またはビューに依存して、モデルを異なる変換に不変にします。
従来のランダムビューサンプリングに基づいて、学習の進捗に役立つビューを明示的に選択することにより、パイプラインを事前に削除する有効性を強化できると仮定します。
シンプルでありながら効果的なアプローチは、より高い損失をもたらすハードビューを選択することです。
このホワイトペーパーでは、Hard View Pretraining(HVP)を提案します。これは、SSLプレイング中にモデルをより挑戦的なサンプルにさらすことにより、ランダムビューの生成を拡張する学習フリー戦略です。
HVPには、次の反復手順が含まれます。1)複数のビューをランダムにサンプリングし、事前に守られたモデルを介して各ビューを転送する、2)2つのビューのペアを作成して損失を計算する、3)現在のモデル状態に応じて最高の損失を生成するペアを敵対的に選択する
、および4)選択したペアでバックワードパスを実行します。
既存のハードビューの文献とは対照的に、私たちは、特に完全なImagenet-1Kデータセットでのトレーニングを行い、複数のSSLメソッド、コンボネット、およびVITで評価するハードビューPretrainingの有効性、特に完全なImagenet-1Kデータセットでのトレーニングを実証する最初の人です。
その結果、HVPはDino VIT-B/16に新しい最先端を設定し、78.8%の線形評価精度(0.6%改善)に達し、100と300のエポック前削除で1%の一貫したゲインに達し、
Dino、Simsiam、Ibot、およびSimclrの転送タスク全体の同様の改善。

要約(オリジナル)

Self-Supervised Learning (SSL) methods typically rely on random image augmentations, or views, to make models invariant to different transformations. We hypothesize that the efficacy of pretraining pipelines based on conventional random view sampling can be enhanced by explicitly selecting views that benefit the learning progress. A simple yet effective approach is to select hard views that yield a higher loss. In this paper, we propose Hard View Pretraining (HVP), a learning-free strategy that extends random view generation by exposing models to more challenging samples during SSL pretraining. HVP encompasses the following iterative steps: 1) randomly sample multiple views and forward each view through the pretrained model, 2) create pairs of two views and compute their loss, 3) adversarially select the pair yielding the highest loss according to the current model state, and 4) perform a backward pass with the selected pair. In contrast to existing hard view literature, we are the first to demonstrate hard view pretraining’s effectiveness at scale, particularly training on the full ImageNet-1k dataset, and evaluating across multiple SSL methods, ConvNets, and ViTs. As a result, HVP sets a new state-of-the-art on DINO ViT-B/16, reaching 78.8% linear evaluation accuracy (a 0.6% improvement) and consistent gains of 1% for both 100 and 300 epoch pretraining, with similar improvements across transfer tasks in DINO, SimSiam, iBOT, and SimCLR.

arxiv情報

著者 Fabio Ferreira,Ivo Rapant,Jörg K. H. Franke,Frank Hutter
発行日 2025-02-06 12:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Beyond Random Augmentations: Pretraining with Hard Views はコメントを受け付けていません

CollagePrompt: A Benchmark for Budget-Friendly Visual Recognition with GPT-4V

要約

生成AIの最近の進歩は、視覚的なプロンプトを取得することにより、GPT-4Vが視覚認識タスクの重要な習熟度を示すことができることを示唆しています。
その印象的な能力にもかかわらず、GPT-4Vの推論に関連する金融コストは、その幅広い使用に対する大きな障壁を示しています。
この課題に対処するために、複数の画像を単一の視覚プロンプトにコラージュし、GPT-4Vが複数の画像で同時に視覚的に認識を実行するため、コストを削減する予算に優しいコラージュプロンプトタスクを提案します。
GPT-4Vの視覚認識でのパフォーマンスを評価するために、さまざまなコラージュプロンプトのデータセットを収集します。
私たちの評価は、いくつかの重要な調査結果を明らかにしています。1)認識の精度は、コラージュ内の位置が異なると異なります。
2)同じカテゴリの画像を一緒にグループ化すると、視覚認識の結果が向上します。
3)誤ったラベルは、多くの場合、隣接する画像から得られます。
これらの調査結果は、コラージュプロンプト内の画像配置の重要性を強調しています。
この目的のために、CollagePromptと呼ばれるベンチマークを構築します。これは、GPT-4Vでより費用対効果の高い視覚認識を実現するために、コラージュプロンプトを設計するためのプラットフォームを提供します。
コラージュレイアウトを最適化するための遺伝的アルゴリズムに由来するベースラインメソッドが提案され、最適化されたコラージュプロンプトの効率を測定するために2つのメトリックが導入されます。
当社のベンチマークにより、研究者はコラージュプロンプトをより適切に最適化できるようになるため、GPT-4Vは視覚的認識においてより費用対効果が高くなります。
コードとデータは、このプロジェクトページhttps://collagePrompting.github.io/で入手できます。

要約(オリジナル)

Recent advancements in generative AI have suggested that by taking visual prompts, GPT-4V can demonstrate significant proficiency in visual recognition tasks. Despite its impressive capabilities, the financial cost associated with GPT-4V’s inference presents a substantial barrier to its wide use. To address this challenge, we propose a budget-friendly collage prompting task that collages multiple images into a single visual prompt and makes GPT-4V perform visual recognition on several images simultaneously, thereby reducing the cost. We collect a dataset of various collage prompts to assess its performance in GPT-4V’s visual recognition. Our evaluations reveal several key findings: 1) Recognition accuracy varies with different positions in the collage. 2) Grouping images of the same category together leads to better visual recognition results. 3) Incorrect labels often come from adjacent images. These findings highlight the importance of image arrangement within collage prompt. To this end, we construct a benchmark called CollagePrompt, which offers a platform for designing collage prompt to achieve more cost-effective visual recognition with GPT-4V. A baseline method derived from genetic algorithms to optimize collage layouts is proposed and two metrics are introduced to measure the efficiency of the optimized collage prompt. Our benchmark enables researchers to better optimize collage prompts, thus making GPT-4V more cost-effective in visual recognition. The code and data are available at this project page https://collageprompting.github.io/.

arxiv情報

著者 Siyu Xu,Yunke Wang,Daochang Liu,Bo Du,Chang Xu
発行日 2025-02-06 12:55:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | CollagePrompt: A Benchmark for Budget-Friendly Visual Recognition with GPT-4V はコメントを受け付けていません

PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models

要約

事前に訓練された拡散モデルに基づいて、オブジェクトパーツの最初のテキストベースの画像編集アプローチを提示します。
拡散ベースの画像編集アプローチは、画像セマンティクスの拡散モデルの深い理解を活用して、さまざまな編集を実行します。
ただし、既存の拡散モデルには、多くのオブジェクトパーツの十分な理解がなく、ユーザーが要求した細粒の編集を妨げています。
これに対処するために、事前に訓練された拡散モデルの知識を拡大して、さまざまなオブジェクトパーツを理解できるようにすることを提案し、微調整された編集を実行できるようにします。
これは、効率的なトークン最適化プロセスを介して異なるオブジェクトパーツに対応する特別なテキストトークンを学習することで実現します。
これらのトークンは、編集領域をローカライズするために、各推論ステップで信頼できるローカリゼーションマスクを生成するように最適化されています。
これらのマスクを活用して、編集をシームレスに実行するために、機能ブレンドと適応のしきい値戦略を設計します。
アプローチを評価するために、パーツ編集用のベンチマークと評価プロトコルを確立します。
実験は、私たちのアプローチがすべてのメトリックの既存の編集方法を上回り、実施されたユーザー研究で77〜90%の時間のユーザーが好むことを示しています。

要約(オリジナル)

We present the first text-based image editing approach for object parts based on pre-trained diffusion models. Diffusion-based image editing approaches capitalized on the deep understanding of diffusion models of image semantics to perform a variety of edits. However, existing diffusion models lack sufficient understanding of many object parts, hindering fine-grained edits requested by users. To address this, we propose to expand the knowledge of pre-trained diffusion models to allow them to understand various object parts, enabling them to perform fine-grained edits. We achieve this by learning special textual tokens that correspond to different object parts through an efficient token optimization process. These tokens are optimized to produce reliable localization masks at each inference step to localize the editing region. Leveraging these masks, we design feature-blending and adaptive thresholding strategies to execute the edits seamlessly. To evaluate our approach, we establish a benchmark and an evaluation protocol for part editing. Experiments show that our approach outperforms existing editing methods on all metrics and is preferred by users 77-90% of the time in conducted user studies.

arxiv情報

著者 Aleksandar Cvejic,Abdelrahman Eldesokey,Peter Wonka
発行日 2025-02-06 13:08:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models はコメントを受け付けていません

Inteligencia artificial para la multi-clasificación de fauna en fotografías automáticas utilizadas en investigación científica

要約

自然環境の管理は、保全であろうと生産のためであろうと、野生生物を深く理解する必要があります。
野生動物の数、場所、および行動は、生態学と野生生物研究の研究の主な主題の1つです。
カメラトラップの使用は、自然の生息地で野生生物を捕らえる大量の写真を迅速に収集する機会を提供し、行動を変える可能性のある要因を避けます。
アルゼンチンのティエラ・デル・フエゴでは、管理を最適化し、これらの自然の生態系を保護するために、さまざまな草食動物(グアナコス、牛、羊)による森林使用に関する研究が行われています。
カメラトラップでは何百万もの画像の収集が可能ですが、そのような写真を解釈することは、手動処理のためのスケーラビリティの課題です。
その結果、これらの膨大なデータリポジトリに保存されている貴重な知識の多くは未タップのままです。
ニューラルネットワークと深い学習は、人工知能内の研究分野です。
過去10年間で、これらの2つの分野は、世界規模での画像認識に大きく貢献してきました。
生態学的および野生生物保全研究をこれらの新しい技術と組み合わせて、カメラトラップによって得られた写真から重要な情報を抽出し、さまざまな自然プロセスの理解に貢献し、関係する野生地域の管理を改善することができます。
私たちのプロジェクトの目的は、科学研究における大規模な課題に対処し、カメラトラップで撮影した写真に動物種を分類するためのニューラルネットワークモデルを開発することを目的としています。

要約(オリジナル)

The management of natural environments, whether for conservation or production, requires a deep understanding of wildlife. The number, location, and behavior of wild animals are among the main subjects of study in ecology and wildlife research. The use of camera traps offers the opportunity to quickly collect large quantities of photographs that capture wildlife in its natural habitat, avoiding factors that could alter their behavior. In Tierra del Fuego, Argentina, research is being conducted on forest use by different herbivores (guanacos, cows, sheep) to optimize management and protect these natural ecosystems. Although camera traps allow for the collection of millions of images, interpreting such photographs presents a scalability challenge for manual processing. As a result, much of the valuable knowledge stored in these vast data repositories remains untapped. Neural Networks and Deep Learning are areas of study within Artificial Intelligence. Over the past decade, these two disciplines have made significant contributions to image recognition on a global scale. Ecological and wildlife conservation studies can be combined with these new technologies to extract important information from the photographs obtained by camera traps, contributing to the understanding of various natural processes and improving the management of the involved wild areas. Our project aims to develop neural network models to classify animal species in photographs taken with camera traps, addressing large-scale challenges in scientific research.

arxiv情報

著者 Federico Gonzalez,Leonel Viera,Rosina Soler,Lucila Chiarvetto Peralta,Matias Gel,Gimena Bustamante,Abril Montaldo,Brian Rigoni,Ignacio Perez
発行日 2025-02-06 13:23:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Inteligencia artificial para la multi-clasificación de fauna en fotografías automáticas utilizadas en investigación científica はコメントを受け付けていません