Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks


私たちは、安全性を重視した最新の LLM であっても、単純な適応ジェイルブレイク攻撃に対しては堅牢ではないことを示します。
まず、脱獄のために logprob へのアクセスをうまく活用する方法を示します。最初に敵対的プロンプト テンプレート (場合によってはターゲット LLM に適合する) を設計し、次にサフィックスにランダム検索を適用して、ターゲット logprob (トークンなど) を最大化します。
このようにして、GPT-4 の審査員によると、Vicuna-13B、Mistral-7B、Phi-3-Mini、Nemotron-4-340B、Llama-2-Chat に対して 100% の攻撃成功率を達成しました。
7B/13B/70B、Llama-3-Instruct-8B、Gemma-7B、GPT-3.5、GPT-4o、および GCG 攻撃に対して敵対的に訓練された HarmBench の R2D2。
また、転送攻撃または事前入力攻撃によって 100% の成功率で、logprob を公開しないすべての Claude モデルをジェイルブレイクする方法も示します。
さらに、毒されたモデル内のトロイの木馬文字列を見つけるために、制限されたトークンのセットでランダム検索を使用する方法を示します。このタスクは、ジェイルブレイクと多くの類似点を共有します。これは、SaTML’24 で 1 位を獲得したアルゴリズムです。
これらの攻撃の背後にある共通のテーマは、適応性が重要であるということです。さまざまなモデルはさまざまなプロンプト テンプレートに対して脆弱であり (たとえば、R2D2 はコンテキスト内の学習プロンプトに非常に敏感です)、一部のモデルには API に基づいた固有の脆弱性があります (たとえば、クロードの事前入力など)
再現性を目的として、コード、ログ、ジェイルブレイク アーティファクトを JailbreakBench 形式で https://github.com/tml-epfl/llm-adaptive-attachs に提供しています。


We show that even the most recent safety-aligned LLMs are not robust to simple adaptive jailbreaking attacks. First, we demonstrate how to successfully leverage access to logprobs for jailbreaking: we initially design an adversarial prompt template (sometimes adapted to the target LLM), and then we apply random search on a suffix to maximize a target logprob (e.g., of the token ‘Sure’), potentially with multiple restarts. In this way, we achieve 100% attack success rate — according to GPT-4 as a judge — on Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, and R2D2 from HarmBench that was adversarially trained against the GCG attack. We also show how to jailbreak all Claude models — that do not expose logprobs — via either a transfer or prefilling attack with a 100% success rate. In addition, we show how to use random search on a restricted set of tokens for finding trojan strings in poisoned models — a task that shares many similarities with jailbreaking — which is the algorithm that brought us the first place in the SaTML’24 Trojan Detection Competition. The common theme behind these attacks is that adaptivity is crucial: different models are vulnerable to different prompting templates (e.g., R2D2 is very sensitive to in-context learning prompts), some models have unique vulnerabilities based on their APIs (e.g., prefilling for Claude), and in some settings, it is crucial to restrict the token search space based on prior knowledge (e.g., for trojan detection). For reproducibility purposes, we provide the code, logs, and jailbreak artifacts in the JailbreakBench format at https://github.com/tml-epfl/llm-adaptive-attacks.


著者 Maksym Andriushchenko,Francesco Croce,Nicolas Flammarion
発行日 2024-10-07 16:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, stat.ML | コメントする

Training Foundation Models as Data Compression: On Information, Model Weights and Copyright Law


他のクラスの深層学習システムと同様に、基礎モデルのトレーニング プロセスは、トレーニング セットにわたる再構成エラーを最小限に抑えることに基づいています。
このため、トレーニング サンプルの暗記とその後の再現の影響を受けやすくなります。
この論文では、モデルの重みがトレーニング データの圧縮表現を具体化する、圧縮としてのトレーニングの観点を導入します。


The training process of foundation models as for other classes of deep learning systems is based on minimizing the reconstruction error over a training set. For this reason, they are susceptible to the memorization and subsequent reproduction of training samples. In this paper, we introduce a training-as-compressing perspective, wherein the model’s weights embody a compressed representation of the training data. From a copyright standpoint, this point of view implies that the weights could be considered a reproduction or a derivative work of a potentially protected set of works. We investigate the technical and legal challenges that emerge from this framing of the copyright of outputs generated by foundation models, including their implications for practitioners and researchers. We demonstrate that adopting an information-centric approach to the problem presents a promising pathway for tackling these emerging complex legal issues.


著者 Giorgio Franceschelli,Claudia Cevenini,Mirco Musolesi
発行日 2024-10-07 16:40:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | コメントする

LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation


大規模言語モデル (LLM) と視覚言語モデル (VLM) の進歩に基づいて、最近の研究では、ロボット操作タスクの統合ソリューションとして視覚言語アクション (VLA) モデルが導入されました。
ただし、VLA モデルのデータ駆動型の性質は、解釈可能性の欠如と相まって、その有効性と堅牢性の保証を困難な課題にしています。
この目的のために、この研究では、VLA モデルを評価するために特別に設計された包括的で効率的なプラットフォームである LADEV を提案します。
次に、VLA モデルに対する言語入力の影響をさらに評価するために、テスト用の多様な自然言語タスク命令を生成する言い換えメカニズムを実装します。
最後に、評価プロセスを迅速化するために、VLA モデルの大規模テストを実行するためのバッチ スタイルの方法を導入します。
LADEV を使用して、いくつかの最先端の VLA モデルで実験を行い、これらのモデルを評価するためのツールとしての有効性を実証しました。
私たちの結果は、LADEV がテスト効率を向上させるだけでなく、VLA モデルを評価するための強固なベースラインを確立し、よりインテリジェントで高度なロボット システムの開発への道を開くことを示しました。


Building on the advancements of Large Language Models (LLMs) and Vision Language Models (VLMs), recent research has introduced Vision-Language-Action (VLA) models as an integrated solution for robotic manipulation tasks. These models take camera images and natural language task instructions as input and directly generate control actions for robots to perform specified tasks, greatly improving both decision-making capabilities and interaction with human users. However, the data-driven nature of VLA models, combined with their lack of interpretability, makes the assurance of their effectiveness and robustness a challenging task. This highlights the need for a reliable testing and evaluation platform. For this purpose, in this work, we propose LADEV, a comprehensive and efficient platform specifically designed for evaluating VLA models. We first present a language-driven approach that automatically generates simulation environments from natural language inputs, mitigating the need for manual adjustments and significantly improving testing efficiency. Then, to further assess the influence of language input on the VLA models, we implement a paraphrase mechanism that produces diverse natural language task instructions for testing. Finally, to expedite the evaluation process, we introduce a batch-style method for conducting large-scale testing of VLA models. Using LADEV, we conducted experiments on several state-of-the-art VLA models, demonstrating its effectiveness as a tool for evaluating these models. Our results showed that LADEV not only enhances testing efficiency but also establishes a solid baseline for evaluating VLA models, paving the way for the development of more intelligent and advanced robotic systems.


著者 Zhijie Wang,Zhehua Zhou,Jiayang Song,Yuheng Huang,Zhan Shu,Lei Ma
発行日 2024-10-07 16:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

CAnDOIT: Causal Discovery with Observational and Interventional Data from Time-Series


因果関係の研究は、科学の多くの分野だけでなく、インテリジェント システムの多くの実際的な応用にとっても最も重要です。
この論文では、観察時系列データと介入時系列データの両方を使用して因果モデルを再構築する因果発見手法である CAnDOIT を提案します。
CAnDOIT の Python 実装も開発されており、GitHub: https://github.com/lcastri/causalflow で公開されています。


The study of cause-and-effect is of the utmost importance in many branches of science, but also for many practical applications of intelligent systems. In particular, identifying causal relationships in situations that include hidden factors is a major challenge for methods that rely solely on observational data for building causal models. This paper proposes CAnDOIT, a causal discovery method to reconstruct causal models using both observational and interventional time-series data. The use of interventional data in the causal analysis is crucial for real-world applications, such as robotics, where the scenario is highly complex and observational data alone are often insufficient to uncover the correct causal structure. Validation of the method is performed initially on randomly generated synthetic models and subsequently on a well-known benchmark for causal structure learning in a robotic manipulation environment. The experiments demonstrate that the approach can effectively handle data from interventions and exploit them to enhance the accuracy of the causal analysis. A Python implementation of CAnDOIT has also been developed and is publicly available on GitHub: https://github.com/lcastri/causalflow.


著者 Luca Castri,Sariah Mghames,Marc Hanheide,Nicola Bellotto
発行日 2024-10-07 17:12:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, stat.ML | コメントする

Learning Successor Features with Distributed Hebbian Temporal Memory


提案されたアルゴリズムである分散ヘビアン時間記憶 (DHTM) は、ファクター グラフ形式主義と多成分ニューロン モデルに基づいています。
DHTM は、逐次的なデータの関係を取得し、将来の観測に関する累積的な予測を行い、後続特徴 (SF) を形成することを目的としています。
新皮質の神経生理学的モデルにインスピレーションを得たこのアルゴリズムは、分散表現、スパース遷移行列、ローカル ヘビアンのような学習ルールを利用して、RNN や HMM などの従来の時間記憶アルゴリズムの不安定性と遅い学習プロセスを克服します。
実験結果は、非定常データセットの場合、DHTM が LSTM および生物学にヒントを得た HMM のようなアルゴリズムである CSCG よりも優れていることを示しています。
私たちの調査結果は、DHTM が動的環境におけるオンライン配列学習と計画の課題に対処するための有望なアプローチであることを示唆しています。


This paper presents a novel approach to address the challenge of online temporal memory learning for decision-making under uncertainty in non-stationary, partially observable environments. The proposed algorithm, Distributed Hebbian Temporal Memory (DHTM), is based on factor graph formalism and a multicomponent neuron model. DHTM aims to capture sequential data relationships and make cumulative predictions about future observations, forming Successor Features (SF). Inspired by neurophysiological models of the neocortex, the algorithm utilizes distributed representations, sparse transition matrices, and local Hebbian-like learning rules to overcome the instability and slow learning process of traditional temporal memory algorithms like RNN and HMM. Experimental results demonstrate that DHTM outperforms LSTM and a biologically inspired HMM-like algorithm, CSCG, in the case of non-stationary datasets. Our findings suggest that DHTM is a promising approach for addressing the challenges of online sequence learning and planning in dynamic environments.


著者 Evgenii Dzhivelikian,Petr Kuderov,Aleksandr I. Panov
発行日 2024-10-07 17:27:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | コメントする

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models


大規模言語モデル (LLM) の最近の進歩により、特に数学における形式的推論能力への関心が高まっています。
GSM8K ベンチマークは、小学校レベルの問題におけるモデルの数学的推論を評価するために広く使用されています。
GSM8K 上の LLM のパフォーマンスは近年大幅に向上しましたが、その数学的推論能力が本当に進歩したかどうかは依然として不明瞭であり、報告されたメトリクスの信頼性について疑問が生じています。
これらの懸念に対処するために、私たちはいくつかの SOTA オープン モデルとクローズド モデルについて大規模な調査を実施しました。
既存の評価の制限を克服するために、多様な質問セットの生成を可能にするシンボリック テンプレートから作成された改良されたベンチマークである GSM-Symbolic を導入します。
GSM-Symbolic は、より制御可能な評価を可能にし、モデルの推論能力を測定するための重要な洞察とより信頼性の高いメトリクスを提供します。私たちの調査結果では、LLM が同じ質問の異なるインスタンス化に応答するときに顕著な差異を示すことが明らかになりました。
具体的には、GSM-Symbolic ベンチマークで質問内の数値のみを変更すると、すべてのモデルのパフォーマンスが低下します。
この低下の原因は、現在の LLM が真の論理的推論を実行できないためであると私たちは仮説を立てています。
彼らはトレーニング データから推論ステップを複製します。
質問に関連すると思われる 1 つの句を追加すると、その句が最終的な答えに必要な推論チェーンに寄与していないにもかかわらず、すべての最先端のモデルで大幅なパフォーマンスの低下 (最大 65%) が発生します。
全体として、私たちの研究は、数学的推論における LLM の機能と限界について、より微妙な理解を提供します。


Recent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the mathematical reasoning of models on grade-school-level questions. While the performance of LLMs on GSM8K has significantly improved in recent years, it remains unclear whether their mathematical reasoning capabilities have genuinely advanced, raising questions about the reliability of the reported metrics. To address these concerns, we conduct a large-scale study on several SOTA open and closed models. To overcome the limitations of existing evaluations, we introduce GSM-Symbolic, an improved benchmark created from symbolic templates that allow for the generation of a diverse set of questions. GSM-Symbolic enables more controllable evaluations, providing key insights and more reliable metrics for measuring the reasoning capabilities of models.Our findings reveal that LLMs exhibit noticeable variance when responding to different instantiations of the same question. Specifically, the performance of all models declines when only the numerical values in the question are altered in the GSM-Symbolic benchmark. Furthermore, we investigate the fragility of mathematical reasoning in these models and show that their performance significantly deteriorates as the number of clauses in a question increases. We hypothesize that this decline is because current LLMs cannot perform genuine logical reasoning; they replicate reasoning steps from their training data. Adding a single clause that seems relevant to the question causes significant performance drops (up to 65%) across all state-of-the-art models, even though the clause doesn’t contribute to the reasoning chain needed for the final answer. Overall, our work offers a more nuanced understanding of LLMs’ capabilities and limitations in mathematical reasoning.


著者 Iman Mirzadeh,Keivan Alizadeh,Hooman Shahrokhi,Oncel Tuzel,Samy Bengio,Mehrdad Farajtabar
発行日 2024-10-07 17:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Regression Conformal Prediction under Bias


等角予測 (CP) は、有効な範囲で調整された予測間隔を生成する、不確実性を定量化するための強力なフレームワークです。
この研究では、CP 間隔がバイアス (グランド トゥルース値からの予測の体系的な偏差) によってどのように影響を受けるかを研究します。これは、現実世界の多くのアプリケーションでよく見られる現象です。
我々は、2 つの異なるタイプの調整の間隔の長さに及ぼすバイアスの影響を調査します。対称調整は、間隔の両側が均等に調整される従来の方法であり、非対称調整は、間隔を正方向に不均等に調整できるより柔軟な方法です。
対称および非対称の調整が回帰タスクの CP 間隔の「狭さ」にどのような影響を与えるかを特徴付ける理論的および経験的分析を紹介します。
特に、絶対残差および分位数ベースの不適合スコアについては、次のことを証明します。1) 対称的に調整された区間の長さの上限は、$2|b|$ ずつ増加します。ここで、$b$ は、バイアスを表すグローバルに適用されるスカラー値です。2) 非対称的に調整されます。
間隔の長さはバイアスの影響を受けません。3) 非対称に調整された間隔の長さが対称のものよりも小さいことが保証される条件。
スパースビューコンピュータ断層撮影 (CT) 再構成と時系列天気予報という 2 つの現実世界の予測タスクを使用して、理論的結果を実証します。


Uncertainty quantification is crucial to account for the imperfect predictions of machine learning algorithms for high-impact applications. Conformal prediction (CP) is a powerful framework for uncertainty quantification that generates calibrated prediction intervals with valid coverage. In this work, we study how CP intervals are affected by bias – the systematic deviation of a prediction from ground truth values – a phenomenon prevalent in many real-world applications. We investigate the influence of bias on interval lengths of two different types of adjustments — symmetric adjustments, the conventional method where both sides of the interval are adjusted equally, and asymmetric adjustments, a more flexible method where the interval can be adjusted unequally in positive or negative directions. We present theoretical and empirical analyses characterizing how symmetric and asymmetric adjustments impact the ‘tightness’ of CP intervals for regression tasks. Specifically for absolute residual and quantile-based non-conformity scores, we prove: 1) the upper bound of symmetrically adjusted interval lengths increases by $2|b|$ where $b$ is a globally applied scalar value representing bias, 2) asymmetrically adjusted interval lengths are not affected by bias, and 3) conditions when asymmetrically adjusted interval lengths are guaranteed to be smaller than symmetric ones. Our analyses suggest that even if predictions exhibit significant drift from ground truth values, asymmetrically adjusted intervals are still able to maintain the same tightness and validity of intervals as if the drift had never happened, while symmetric ones significantly inflate the lengths. We demonstrate our theoretical results with two real-world prediction tasks: sparse-view computed tomography (CT) reconstruction and time-series weather forecasting. Our work paves the way for more bias-robust machine learning systems.


著者 Matt Y. Cheung,Tucker J. Netherton,Laurence E. Court,Ashok Veeraraghavan,Guha Balakrishnan
発行日 2024-10-07 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.ST, stat.ME, stat.ML, stat.TH | コメントする

PhotoReg: Photometrically Registering 3D Gaussian Splatting Models


環境の正確な表現を構築することは、インテリジェント ロボットが展開中に意思決定を行うために重要です。
特に、最近導入された \ac{3DGS} は、最大数百万のプリミティブ楕円体でシーンを記述しており、リアルタイムでレンダリングできます。
\ac{3DGS} は急速に注目を集めています。
しかし、重要な未解決の問題が依然として残っています。複数の \ac{3DGS} を単一の一貫したモデルに融合するにはどうすればよいでしょうか?
この問題を解決すると、ロボット チームが周囲の \ac{3DGS} モデルを共同で構築できるようになります。
この研究の重要な洞察は、3D 構造からリアルな 2D 画像をレンダリングするフォトリアリスティックな再構成と、画像ペアから 3D 構造を予測する \emph{3D 基礎モデル} の間の {二重性} を活用することです。
この目的を達成するために、私たちは複数の写真のようにリアルな \ac{3DGS} モデルを 3D 基礎モデルに登録するフレームワークである PhotoReg を開発します。
\ac{3DGS} モデルは通常、単眼カメラの画像から構築されるため、\emph{任意のスケール} を持ちます。
これを解決するために、PhotoReg は、さまざまな \ac{3DGS} モデル内の深さの推定を考慮することで、これらのモデル間のスケールの一貫性を積極的に強化します。
次に、きめの細かい測光損失を使用して位置合わせを繰り返し調整し、高品質の融合 \ac{3DGS} モデルを生成します。
当社では、標準ベンチマーク データセットと、2 台の四足ロボットを含むカスタム収集データセットの両方で PhotoReg を厳密に評価しています。
コードは \url{ziweny11.github.io/photoreg} でリリースされています。


Building accurate representations of the environment is critical for intelligent robots to make decisions during deployment. Advances in photorealistic environment models have enabled robots to develop hyper-realistic reconstructions, which can be used to generate images that are intuitive for human inspection. In particular, the recently introduced \ac{3DGS}, which describes the scene with up to millions of primitive ellipsoids, can be rendered in real time. \ac{3DGS} has rapidly gained prominence. However, a critical unsolved problem persists: how can we fuse multiple \ac{3DGS} into a single coherent model? Solving this problem will enable robot teams to jointly build \ac{3DGS} models of their surroundings. A key insight of this work is to leverage the {duality} between photorealistic reconstructions, which render realistic 2D images from 3D structure, and \emph{3D foundation models}, which predict 3D structure from image pairs. To this end, we develop PhotoReg, a framework to register multiple photorealistic \ac{3DGS} models with 3D foundation models. As \ac{3DGS} models are generally built from monocular camera images, they have \emph{arbitrary scale}. To resolve this, PhotoReg actively enforces scale consistency among the different \ac{3DGS} models by considering depth estimates within these models. Then, the alignment is iteratively refined with fine-grained photometric losses to produce high-quality fused \ac{3DGS} models. We rigorously evaluate PhotoReg on both standard benchmark datasets and our custom-collected datasets, including with two quadruped robots. The code is released at \url{ziweny11.github.io/photoreg}.


著者 Ziwen Yuan,Tianyi Zhang,Matthew Johnson-Roberson,Weiming Zhi
発行日 2024-10-07 13:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

HE-Drive: Human-Like End-to-End Driving with Vision Language Models


この論文では、HE-Drive を提案します。これは、時間的に一貫性があり快適な軌道を生成する初の人間中心のエンドツーエンド自動運転システムです。
上記の問題を解決するために、当社の HE ドライブは、まずスパース知覚を通じて重要な 3D 空間表現を抽出します。次に、これが条件付きノイズ除去拡散確率モデル (DDPM) ベースのモーション プランナーへの条件付き入力として機能し、時間的一貫性のあるマルチモーダル軌道を生成します。
その後、視覚言語モデル (VLM) に基づく軌道スコアラーがこれらの候補から最も快適な軌道を選択して車両を制御し、人間らしいエンドツーエンドの運転を保証します。
実験では、HE-Drive が、困難な nuScenes および OpenScene データセットに対して最先端のパフォーマンス (つまり、平均衝突率を VAD より 71% 削減) と効率 (つまり、SparseDrive の 1.9 倍高速) を達成するだけでなく、
また、実世界のデータに基づいて最も快適な運転体験を提供します。詳細については、プロジェクト Web サイト (https://jmwang0117.github.io/HE-Drive/) を参照してください。


In this paper, we propose HE-Drive: the first human-like-centric end-to-end autonomous driving system to generate trajectories that are both temporally consistent and comfortable. Recent studies have shown that imitation learning-based planners and learning-based trajectory scorers can effectively generate and select accuracy trajectories that closely mimic expert demonstrations. However, such trajectory planners and scorers face the dilemma of generating temporally inconsistent and uncomfortable trajectories. To solve the above problems, Our HE-Drive first extracts key 3D spatial representations through sparse perception, which then serves as conditional inputs for a Conditional Denoising Diffusion Probabilistic Models (DDPMs)-based motion planner to generate temporal consistency multi-modal trajectories. A Vision-Language Models (VLMs)-guided trajectory scorer subsequently selects the most comfortable trajectory from these candidates to control the vehicle, ensuring human-like end-to-end driving. Experiments show that HE-Drive not only achieves state-of-the-art performance (i.e., reduces the average collision rate by 71% than VAD) and efficiency (i.e., 1.9X faster than SparseDrive) on the challenging nuScenes and OpenScene datasets but also provides the most comfortable driving experience on real-world data.For more information, visit the project website: https://jmwang0117.github.io/HE-Drive/.


著者 Junming Wang,Xingyu Zhang,Zebin Xing,Songen Gu,Xiaoyang Guo,Yang Hu,Ziying Song,Qian Zhang,Xiaoxiao Long,Wei Yin
発行日 2024-10-07 14:06:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification


この研究では、データ キュレーション戦略の正式な評価に向けて一歩を踏み出し、画像分類のためのキュレーション戦略の初の大規模ベンチマークである SELECT を紹介します。
SELECT ベンチマークのベースライン メソッドを生成するために、これまでの ImageNet-1K の最大のスーパーセットを構成する新しいデータセット ImageNet++ を作成します。
私たちのデータセットは、5 つの新しいトレーニング データ シフトで ImageNet を拡張します。各シフトは ImageNet-1K 自体のサイズとほぼ同じで、それぞれが個別のキュレーション戦略を使用して組み立てられています。
データ キュレーション ベースラインを 2 つの方法で評価します。(i) 各トレーニング データ シフトを使用して、同一の画像分類モデルを最初からトレーニングします。(ii) データ自体を使用して、事前トレーニングされた自己教師あり表現に適合します。
私たちの調査結果は、特に合成データの生成や CLIP 埋め込みに基づくルックアップなど、データキュレーションの最近の方法に関連した興味深い傾向を示しています。
これらの戦略は特定のタスクでは非常に競争力がありますが、元の ImageNet-1K データセットを組み立てるために使用されたキュレーション戦略が依然としてゴールド スタンダードであることを示します。
チェックポイント、コード、ドキュメント、およびデータセットへのリンクを https://github.com/jimmyxu123/SELECT でリリースします。


Data curation is the problem of how to collect and organize samples into a dataset that supports efficient learning. Despite the centrality of the task, little work has been devoted towards a large-scale, systematic comparison of various curation methods. In this work, we take steps towards a formal evaluation of data curation strategies and introduce SELECT, the first large-scale benchmark of curation strategies for image classification. In order to generate baseline methods for the SELECT benchmark, we create a new dataset, ImageNet++, which constitutes the largest superset of ImageNet-1K to date. Our dataset extends ImageNet with 5 new training-data shifts, each approximately the size of ImageNet-1K itself, and each assembled using a distinct curation strategy. We evaluate our data curation baselines in two ways: (i) using each training-data shift to train identical image classification models from scratch (ii) using the data itself to fit a pretrained self-supervised representation. Our findings show interesting trends, particularly pertaining to recent methods for data curation such as synthetic data generation and lookup based on CLIP embeddings. We show that although these strategies are highly competitive for certain tasks, the curation strategy used to assemble the original ImageNet-1K dataset remains the gold standard. We anticipate that our benchmark can illuminate the path for new methods to further reduce the gap. We release our checkpoints, code, documentation, and a link to our dataset at https://github.com/jimmyxu123/SELECT.


著者 Benjamin Feuer,Jiawei Xu,Niv Cohen,Patrick Yubeaton,Govind Mittal,Chinmay Hegde
発行日 2024-10-07 14:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする