Are Sparse Autoencoders Useful for Java Function Bug Detection?

要約

バッファーオーバーフローやSQL注入などのソフトウェアの脆弱性は、セキュリティ侵害の主要な原因です。
脆弱性検出のための従来の方法は依然として不可欠ですが、高い誤った陽性率、スケーラビリティの問題、および手動の努力への依存によって制限されます。
これらの制約は、自動化された脆弱性検出と安全なコード生成に対するAIベースのアプローチへの関心を促進しています。
大規模な言語モデル(LLM)は分類タスクの新しい手段を開きましたが、その複雑さと不透明度は解釈可能性と展開の課題をもたらします。
スパースオートエンコーダーは、この問題に対する有望なソリューションを提供します。
SAEがJava関数でのバグ検出のための軽量で解釈可能な代替として機能できるかどうかを調査します。
GPT-2 SmallおよびGemma 2Bの表現に適用された場合、SAEの有効性を評価し、基礎となるLLMを微調整せずにバギー行動を強調する能力を調べます。
SAE由来の機能により、最大89%のF1スコアでバグ検出が可能になり、一貫してファインチューニングされたトランスエンコーダーベースラインよりも優れていることがわかりました。
私たちの研究は、SAEを使用して、微調整やタスク固有の監督なしで、前処理されたLLMの内部表現からソフトウェアバグを直接検出できるという最初の経験的証拠を提供します。

要約(オリジナル)

Software vulnerabilities such as buffer overflows and SQL injections are a major source of security breaches. Traditional methods for vulnerability detection remain essential but are limited by high false positive rates, scalability issues, and reliance on manual effort. These constraints have driven interest in AI-based approaches to automated vulnerability detection and secure code generation. While Large Language Models (LLMs) have opened new avenues for classification tasks, their complexity and opacity pose challenges for interpretability and deployment. Sparse Autoencoder offer a promising solution to this problem. We explore whether SAEs can serve as a lightweight, interpretable alternative for bug detection in Java functions. We evaluate the effectiveness of SAEs when applied to representations from GPT-2 Small and Gemma 2B, examining their capacity to highlight buggy behaviour without fine-tuning the underlying LLMs. We found that SAE-derived features enable bug detection with an F1 score of up to 89%, consistently outperforming fine-tuned transformer encoder baselines. Our work provides the first empirical evidence that SAEs can be used to detect software bugs directly from the internal representations of pretrained LLMs, without any fine-tuning or task-specific supervision.

arxiv情報

著者 Rui Melo,Claudia Mamede,Andre Catarino,Rui Abreu,Henrique Lopes Cardoso
発行日 2025-05-15 14:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | Are Sparse Autoencoders Useful for Java Function Bug Detection? はコメントを受け付けていません

Multi-Agent Path Finding For Large Agents Is Intractable

要約

マルチエージェントパス検出(MAPF)の問題は、グラフ上の一連のパスを見つけるよう求めます。これにより、これらのパスに従うと、エージェントが競合に遭遇しないようにします。
最も広範なMAPF定式化、いわゆる古典的なMAPFでは、エージェントのサイズは無視され、2つのタイプの競合が考慮されます。同じ頂点を占有するか、同じエッジを同じ時間ステップで使用します。
一方、多数の実用的なアプリケーションでは、例えば
Roboticsでは、MAPFソリューションを安全に実行できるようにするには、エージェントのサイズを考慮に入れることが不可欠です。
大規模なエージェントを導入すると、あるエージェントがエッジをたどり、その体が実際にこの同じエッジを使用していない別のエージェントのボディと重複すると、追加のタイプの競合が発生します(たとえば、グラフの明確な頂点にまだ残る)。
これまで、計画中にそのような紛争を考慮する必要がある場合、問題がどれほど難しくなるかは明らかではありませんでした。
具体的には、無向グラフの古典的なMAPF問題は多項式時間に解決できることが知られていましたが、大規模なエージェントとのMAPFを解くために完全な多項式時間アルゴリズムは提示されていません。
この論文では、初めて、後者の問題がNPハードであることを確認します。したがって、P!= NPの場合、残念ながら、それについて多項式アルゴリズムを提示できません。
私たちの証拠は、目の前の問題に対して、独創的な3SAT問題(NP完全な問題であることが知られている)を減らすという現場の技術に普及していることに基づいています。
特に、任意の3SAT式の場合、特定の開始と目標の頂点を備えた専用グラフを手順的に構築し、特定の3SAT式が対応するパス検索インスタンスに解がある場合に満足できることを示します。

要約(オリジナル)

The multi-agent path finding (MAPF) problem asks to find a set of paths on a graph such that when synchronously following these paths the agents never encounter a conflict. In the most widespread MAPF formulation, the so-called Classical MAPF, the agents sizes are neglected and two types of conflicts are considered: occupying the same vertex or using the same edge at the same time step. Meanwhile in numerous practical applications, e.g. in robotics, taking into account the agents’ sizes is vital to ensure that the MAPF solutions can be safely executed. Introducing large agents yields an additional type of conflict arising when one agent follows an edge and its body overlaps with the body of another agent that is actually not using this same edge (e.g. staying still at some distinct vertex of the graph). Until now it was not clear how harder the problem gets when such conflicts are to be considered while planning. Specifically, it was known that Classical MAPF problem on an undirected graph can be solved in polynomial time, however no complete polynomial-time algorithm was presented to solve MAPF with large agents. In this paper we, for the first time, establish that the latter problem is NP-hard and, thus, if P!=NP no polynomial algorithm for it can, unfortunately, be presented. Our proof is based on the prevalent in the field technique of reducing the seminal 3SAT problem (which is known to be an NP-complete problem) to the problem at hand. In particular, for an arbitrary 3SAT formula we procedurally construct a dedicated graph with specific start and goal vertices and show that the given 3SAT formula is satisfiable iff the corresponding path finding instance has a solution.

arxiv情報

著者 Artem Agafonov,Konstantin Yakovlev
発行日 2025-05-15 15:07:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.MA | Multi-Agent Path Finding For Large Agents Is Intractable はコメントを受け付けていません

Schreier-Coset Graph Propagation

要約

Graph Neural Networks(GNNS)は、グラフ構造データを超える学習のための原則的なフレームワークを提供しますが、その表現能力は過剰なスケッシングによって妨げられることがよくあり、遠いノードからの情報は固定サイズのベクターに圧縮されます。
CayleyやExpanderグラフなどのグラフの再配線やボトルネックに耐えるアーキテクチャなどの既存のソリューションは、この問題を避けますが、スケーラビリティボトルネックを導入します。
特に、$ sl(2、\ mathbb {z} _n)を超えて構築されたCayleyグラフは、強力な理論的特性を示しますが、立方ノードの成長$ o(n^3)$に悩まされ、高いメモリ使用量をもたらします。
これに対処するために、この作業では、入力グラフトポロジを変更せずにSchreier-Coset Embeddingsを介してノードの特徴を濃縮するグループ理論的増強法であるSchrier-Cosetグラフ伝播(SCGP)を紹介します。
SCGPは、ボトルネックフリーの接続パターンをコンパクトな機能空間に埋め込み、計算効率を維持しながら長距離メッセージの合格を改善します。
標準ノードおよびグラフ分類ベンチマーク全体の経験的評価は、SCGPがグラフと再配線のGNNベースラインに匹敵する、またはそれを超えるパフォーマンスを達成することを示しています。
さらに、SCGPは、階層的およびモジュラーグラフ構造を処理する際に特定の利点を示し、推論潜時の低下、スケーラビリティの向上、および低いメモリフットプリントを提供し、リアルタイムおよびリソースに制約のあるアプリケーションに適しています。

要約(オリジナル)

Graph Neural Networks (GNNs) offer a principled framework for learning over graph-structured data, yet their expressive capacity is often hindered by over-squashing, wherein information from distant nodes is compressed into fixed-size vectors. Existing solutions, including graph rewiring and bottleneck-resistant architectures such as Cayley and expander graphs, avoid this problem but introduce scalability bottlenecks. In particular, the Cayley graphs constructed over $SL(2,\mathbb{Z}_n)$ exhibit strong theoretical properties, yet suffer from cubic node growth $O(n^3)$, leading to high memory usage. To address this, this work introduces Schrier-Coset Graph Propagation (SCGP), a group-theoretic augmentation method that enriches node features through Schreier-coset embeddings without altering the input graph topology. SCGP embeds bottleneck-free connectivity patterns into a compact feature space, improving long-range message passing while maintaining computational efficiency. Empirical evaluations across standard node and graph classification benchmarks demonstrate that SCGP achieves performance comparable to, or exceeding, expander graph and rewired GNN baselines. Furthermore, SCGP exhibits particular advantages in processing hierarchical and modular graph structures, offering reduced inference latency, improved scalability, and a low memory footprint, making it suitable for real-time and resource-constrained applications.

arxiv情報

著者 Aryan Mishra,Lizhen Lin
発行日 2025-05-15 15:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Schreier-Coset Graph Propagation はコメントを受け付けていません

Uncovering Magnetic Phases with Synthetic Data and Physics-Informed Training

要約

合成データでトレーニングされた人工ニューラルネットワークを使用して、計算シンプルさと物理学に基づいた戦略を組み合わせた磁気相の効率的な学習を調査します。
正確な分析ソリューションを欠いている希釈されたISINGモデルに焦点を当て、2つの補完的なアプローチを調査します。単純な密度のニューラルネットワークを使用した監視された分類と、理想的なスピン構成のみでトレーニングされた畳み込み自動エンコーダーを使用した位相遷移の監視されていない検出です。
モデルのパフォーマンスを強化するために、物理学に基づいた2つの形式のガイダンスを組み込みます。
まず、対称性破壊に関連する機能を優先的に増幅するアーキテクチャバイアスを活用します。
第二に、$ \ mathbb {z} _2 $ symmetryを明示的に破壊するトレーニング構成を含め、順序付きフェーズを検出するネットワークの能力を強化します。
これらのメカニズムは、タンデムで作用し、明示的なラベルがない場合でも、位相構造に対するネットワークの感度を高めます。
臨界温度および浸透閾値の直接的な数値推定値との比較を通じて、機械学習予測を検証します。
私たちの結果は、合成、構造、および計算効率の高いトレーニングスキームが、複雑なシステムでさえ、物理的に意味のある位相境界を明らかにできることを示しています。
このフレームワークは、より広い凝縮物質および統計物理学のコンテキストで潜在的なアプリケーションを備えた、従来の方法に代わる低コストで堅牢な代替品を提供します。

要約(オリジナル)

We investigate the efficient learning of magnetic phases using artificial neural networks trained on synthetic data, combining computational simplicity with physics-informed strategies. Focusing on the diluted Ising model, which lacks an exact analytical solution, we explore two complementary approaches: a supervised classification using simple dense neural networks, and an unsupervised detection of phase transitions using convolutional autoencoders trained solely on idealized spin configurations. To enhance model performance, we incorporate two key forms of physics-informed guidance. First, we exploit architectural biases which preferentially amplify features related to symmetry breaking. Second, we include training configurations that explicitly break $\mathbb{Z}_2$ symmetry, reinforcing the network’s ability to detect ordered phases. These mechanisms, acting in tandem, increase the network’s sensitivity to phase structure even in the absence of explicit labels. We validate the machine learning predictions through comparison with direct numerical estimates of critical temperatures and percolation thresholds. Our results show that synthetic, structured, and computationally efficient training schemes can reveal physically meaningful phase boundaries, even in complex systems. This framework offers a low-cost and robust alternative to conventional methods, with potential applications in broader condensed matter and statistical physics contexts.

arxiv情報

著者 Agustin Medina,Marcelo Arlego,Carlos A. Lamas
発行日 2025-05-15 15:16:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.str-el, cs.AI | Uncovering Magnetic Phases with Synthetic Data and Physics-Informed Training はコメントを受け付けていません

Double Successive Over-Relaxation Q-Learning with an Extension to Deep Reinforcement Learning

要約

Qラーニングは、強化学習(RL)で広く使用されているアルゴリズムですが、特に割引率が1に近い場合は、収束が遅くなる可能性があります。
連続した過剰緩和(SOR)Qラーニングは、収束をスピードアップするための緩和係数を導入し、この問題に対処しますが、表形式の設定では2つの主要な制限があります。緩和パラメーターは遷移確率に依存し、完全にモデルのないものではなく、過大評価biasに苦しむことがあります。
これらの制限を克服するために、サンプルベースのモデルを含まない二重Qラーニングアルゴリズムを提案します。
理論的にも経験的にも、このアルゴリズムはSOR Qラーニングよりも偏りが少ないことが示されています。
さらに、表形式の設定では、反復型の境界仮定の下での収束分析について説明します。
提案されたアルゴリズムは、ディープRLを使用して大規模な問題に拡張されます。
最後に、提案されたアルゴリズムの表形式バージョンは、ルーレットとグリッドの世界環境を使用して比較されますが、ディープRLバージョンは最大化バイアスの例とOpenaiジム環境でテストされます。

要約(オリジナル)

Q-learning is a widely used algorithm in reinforcement learning (RL), but its convergence can be slow, especially when the discount factor is close to one. Successive Over-Relaxation (SOR) Q-learning, which introduces a relaxation factor to speed up convergence, addresses this issue but has two major limitations: In the tabular setting, the relaxation parameter depends on transition probability, making it not entirely model-free, and it suffers from overestimation bias. To overcome these limitations, we propose a sample-based, model-free double SOR Q-learning algorithm. Theoretically and empirically, this algorithm is shown to be less biased than SOR Q-learning. Further, in the tabular setting, the convergence analysis under boundedness assumptions on iterates is discussed. The proposed algorithm is extended to large-scale problems using deep RL. Finally, the tabular version of the proposed algorithm is compared using roulette and grid world environments, while the deep RL version is tested on a maximization bias example and OpenAI Gym environments.

arxiv情報

著者 Shreyas S R
発行日 2025-05-15 15:16:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Double Successive Over-Relaxation Q-Learning with an Extension to Deep Reinforcement Learning はコメントを受け付けていません

Inconsistency Handling in DatalogMTL

要約

この論文では、メトリック時間演算子を持つDatalogの拡張であるDatalogmtlでの不一致の取り扱いの問題を調査します。
事実は時間間隔に関連しているため、事実を削除したり、時間間隔を変更したりするなど、ルールと矛盾するときに一貫性を回復するための異なるマナーがあります。
私たちの最初の貢献は、この設定のための紛争の関連概念(不一致の最小限の説明)と修理(一貫性を回復する可能性のある方法)の定義と、これらの概念の特性と関連する矛盾耐性のセマンティクスの研究です。
2番目の貢献は、修理ベースのセマンティクスの下での単一の競合 /修理とクエリの伴いを生成するタスクのデータ複雑さ分析です。

要約(オリジナル)

In this paper, we explore the issue of inconsistency handling in DatalogMTL, an extension of Datalog with metric temporal operators. Since facts are associated with time intervals, there are different manners to restore consistency when they contradict the rules, such as removing facts or modifying their time intervals. Our first contribution is the definition of relevant notions of conflicts (minimal explanations for inconsistency) and repairs (possible ways of restoring consistency) for this setting and the study of the properties of these notions and the associated inconsistency-tolerant semantics. Our second contribution is a data complexity analysis of the tasks of generating a single conflict / repair and query entailment under repair-based semantics.

arxiv情報

著者 Meghyn Bienvenu,Camille Bourgaux,Atefe Khodadaditaghanaki
発行日 2025-05-15 15:17:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LO | Inconsistency Handling in DatalogMTL はコメントを受け付けていません

Evaluating Model Explanations without Ground Truth

要約

単一のモデル予測については、多くの競合する矛盾した説明があり、使用するものを選択することを困難にします。
現在の説明評価フレームワークは、理想的な「根本」の説明と比較するか、重要な入力に対するモデルの感度を検証することにより、品質を測定します。
これらのアプローチの限界の概要を説明し、ローカルの特徴の重要性の説明のための説明評価戦略の将来の開発を根付かせるために、3つの望ましい原則を提案します。
これらの原則を満たすモデルの説明を評価して比較するための基礎と真実の不可知論の説明評価フレームワーク(AX)を提案します。
以前のアプローチとは異なり、AXは比較のための理想的な地上真実の説明へのアクセスを必要としません。また、モデルの感度に依存しています – 説明品質の独立した尺度を提供します。
ベースラインと比較してAXを検証し、説明のフェアウォッシュを検出するためにそれを使用する方法を示します。
私たちのコードは、https://github.com/kairawal/evaluating-model-explanationsでグラウンド・トゥルースで入手できます。

要約(オリジナル)

There can be many competing and contradictory explanations for a single model prediction, making it difficult to select which one to use. Current explanation evaluation frameworks measure quality by comparing against ideal ‘ground-truth’ explanations, or by verifying model sensitivity to important inputs. We outline the limitations of these approaches, and propose three desirable principles to ground the future development of explanation evaluation strategies for local feature importance explanations. We propose a ground-truth Agnostic eXplanation Evaluation framework (AXE) for evaluating and comparing model explanations that satisfies these principles. Unlike prior approaches, AXE does not require access to ideal ground-truth explanations for comparison, or rely on model sensitivity – providing an independent measure of explanation quality. We verify AXE by comparing with baselines, and show how it can be used to detect explanation fairwashing. Our code is available at https://github.com/KaiRawal/Evaluating-Model-Explanations-without-Ground-Truth.

arxiv情報

著者 Kaivalya Rawal,Zihao Fu,Eoin Delaney,Chris Russell
発行日 2025-05-15 15:22:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.6 | Evaluating Model Explanations without Ground Truth はコメントを受け付けていません

Rethinking Repetition Problems of LLMs in Code Generation

要約

神経言語モデルの出現により、コード生成のパフォーマンスが大幅に向上しました。
ただし、生成プロセス中の繰り返しの問題は長続きし続けています。
以前の作業は主にコンテンツの繰り返しに焦点を当ててきました。これは、コード生成におけるより広範な繰り返し問題のほんの一部にすぎません。
より一般的で挑戦的な問題は、構造的な繰り返しです。
構造の繰り返しでは、繰り返されるコードはさまざまなパターンで表示されますが、固定構造を所有しており、これは本質的に文法に反映されます。
この論文では、構造的繰り返しを正式に定義し、LLMSのコード生成の繰り返し問題を軽減するために、文法に基づく繰り返しの罰則を表すRPGと呼ばれる効率的なデコードアプローチを提案します。
具体的には、RPGは最初に文法規則を活用してコード生成中の繰り返しの問題を特定し、その後、繰り返しに寄与する重要なトークンの可能性を戦略的に減少させ、それによってコード生成でそれらを軽減します。
この研究を促進するために、コード生成における繰り返しの問題を緩和するためのアプローチを包括的に評価するために、新しいデータセットCODEREPETEVALを構築します。
大規模な実験結果は、RPGがCoderepeteval DatasetおよびHumanevalおよびMBPPベンチマークで最もパフォーマンスの高いベースラインを大幅に上回り、繰り返しを効果的に削減し、生成されたコードの品質を向上させることを示しています。

要約(オリジナル)

With the advent of neural language models, the performance of code generation has been significantly boosted. However, the problem of repetitions during the generation process continues to linger. Previous work has primarily focused on content repetition, which is merely a fraction of the broader repetition problem in code generation. A more prevalent and challenging problem is structural repetition. In structural repetition, the repeated code appears in various patterns but possesses a fixed structure, which can be inherently reflected in grammar. In this paper, we formally define structural repetition and propose an efficient decoding approach called RPG, which stands for Repetition Penalization based on Grammar, to alleviate the repetition problems in code generation for LLMs. Specifically, RPG first leverages grammar rules to identify repetition problems during code generation, and then strategically decays the likelihood of critical tokens that contribute to repetitions, thereby mitigating them in code generation. To facilitate this study, we construct a new dataset CodeRepetEval to comprehensively evaluate approaches for mitigating the repetition problems in code generation. Extensive experimental results demonstrate that RPG substantially outperforms the best-performing baselines on CodeRepetEval dataset as well as HumanEval and MBPP benchmarks, effectively reducing repetitions and enhancing the quality of generated code.

arxiv情報

著者 Yihong Dong,Yuchen Liu,Xue Jiang,Zhi Jin,Ge Li
発行日 2025-05-15 15:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | Rethinking Repetition Problems of LLMs in Code Generation はコメントを受け付けていません

Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization

要約

大規模な言語モデル(LLM)は、言語の理解と生成に顕著な能力を示しています。
それにもかかわらず、LLMSは特定のクエリに対する不正確な応答を生成する傾向があることも目撃されました。
この不足は、LLMSを受ける必要があるトークン化ステップにまで由来することができます。これは、すべてのLLMに固有の避けられない制限です。
実際、誤ったトークン化は、入力を正確に理解する際にLLMSを妨げる重要なポイントであり、したがって、不十分な出力につながります。
この欠陥は、中国のシナリオでより明白です。
このLLMSの欠陥を示すために、$ \ textBf {adt(トークネイザーの逆境データセット)} $と呼ばれる敵対的なデータセットを構築します。
ADTは、2つのサブセットで構成されています。手動で構築されたADTヒューマンと自動生成されたADT-Autoです。
私たちの経験的結果は、私たちのADTが、GPT-4O、LLAMA-3、DeepSeek-R1などを含む主要なLLMのトークン化に挑戦することに非常に効果的であり、したがってこれらのLLMS機能を分解することを明らかにしています。
さらに、自動データ生成の方法は効率的かつ堅牢であることが証明されており、オープンソースLLMに適用できます。
この論文では、トークンセグメンテーションに挑戦するという点でLLMSの脆弱性を実質的に調査します。これは、トークン化プロセスとアルゴリズムを最適化することにより、LLMSの機能を改善するためのその後の研究に光を当てます。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable capabilities in language understanding and generation. Nonetheless, it was also witnessed that LLMs tend to produce inaccurate responses to specific queries. This deficiency can be traced to the tokenization step LLMs must undergo, which is an inevitable limitation inherent to all LLMs. In fact, incorrect tokenization is the critical point that hinders LLMs in understanding the input precisely, thus leading to unsatisfactory output. This defect is more obvious in Chinese scenarios. To demonstrate this flaw of LLMs, we construct an adversarial dataset, named as $\textbf{ADT (Adversarial Dataset for Tokenizer)}$, which draws upon the vocabularies of various open-source LLMs to challenge LLMs’ tokenization. ADT consists of two subsets: the manually constructed ADT-Human and the automatically generated ADT-Auto. Our empirical results reveal that our ADT is highly effective on challenging the tokenization of leading LLMs, including GPT-4o, Llama-3, Deepseek-R1 and so on, thus degrading these LLMs’ capabilities. Moreover, our method of automatic data generation has been proven efficient and robust, which can be applied to any open-source LLMs. In this paper, we substantially investigate LLMs’ vulnerability in terms of challenging their token segmentation, which will shed light on the subsequent research of improving LLMs’ capabilities through optimizing their tokenization process and algorithms.

arxiv情報

著者 Dixuan Wang,Yanda Li,Junyuan Jiang,Zepeng Ding,Ziqin Luo,Guochao Jiang,Jiaqing Liang,Deqing Yang
発行日 2025-05-15 15:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization はコメントを受け付けていません

MapExplorer: New Content Generation from Low-Dimensional Visualizations

要約

低次元の視覚化、または「投影マップ」は、科学的および創造的なドメインで広く使用されており、大規模で複雑なデータセットを解釈しています。
これらの視覚化は、既存の知識空間を理解するのに役立つだけでなく、不明な領域への探査を暗黙的に導きます。
T-SNEやUMAPなどの手法はこれらのマップを生成できますが、新しいコンテンツを生成するためにそれらを活用するための体系的な方法は存在しません。
これに対処するために、Projectionマップ内の座標をコヒーレントで文脈的に整合したテキストコンテンツに変換する新しい知識発見タスクであるMapExplorerを紹介します。
これにより、ユーザーはマップに組み込まれた洞察をインタラクティブに探索して明らかにすることができます。
MapExplorerメソッドのパフォーマンスを評価するために、生成されたテキストと参照テキストの間の論理コヒーレンスとアライメントを定量化するルージュに触発された細粒メトリックであるAtometricを提案します。
多様なデータセットでの実験は、科学的仮説の生成、合成ペルソナの作成、および単純なベースライン方法で大規模な言語モデルを攻撃するための戦略を考案する際のMapExplorerの汎用性を示しています。
視覚化と生成を橋渡しすることにより、私たちの研究は、MapExplorerが大規模なデータ探索における直感的な人間とのコラボレーションを可能にする可能性を強調しています。

要約(オリジナル)

Low-dimensional visualizations, or ‘projection maps,’ are widely used in scientific and creative domains to interpret large-scale and complex datasets. These visualizations not only aid in understanding existing knowledge spaces but also implicitly guide exploration into unknown areas. Although techniques such as t-SNE and UMAP can generate these maps, there exists no systematic method for leveraging them to generate new content. To address this, we introduce MapExplorer, a novel knowledge discovery task that translates coordinates within any projection map into coherent, contextually aligned textual content. This allows users to interactively explore and uncover insights embedded in the maps. To evaluate the performance of MapExplorer methods, we propose Atometric, a fine-grained metric inspired by ROUGE that quantifies logical coherence and alignment between generated and reference text. Experiments on diverse datasets demonstrate the versatility of MapExplorer in generating scientific hypotheses, crafting synthetic personas, and devising strategies for attacking large language models-even with simple baseline methods. By bridging visualization and generation, our work highlights the potential of MapExplorer to enable intuitive human-AI collaboration in large-scale data exploration.

arxiv情報

著者 Xingjian Zhang,Ziyang Xiong,Shixuan Liu,Yutong Xie,Tolga Ergen,Dongsub Shim,Hua Xu,Honglak Lee,Qiaozhu Me
発行日 2025-05-15 15:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | MapExplorer: New Content Generation from Low-Dimensional Visualizations はコメントを受け付けていません