The Order Effect: Investigating Prompt Sensitivity to Input Order in LLMs

要約

大規模な言語モデル(LLM)が多様なアプリケーションに不可欠になるため、さまざまな入力条件下での信頼性が重要であることを保証します。
この信頼性に影響を与える重要な問題の1つは、注文感度であり、入力配置のわずかな変動が一貫性のない出力または偏った出力につながる可能性があります。
最近の進歩はこの感度を低下させましたが、問題は未解決のままです。
このペーパーでは、内部コンポーネントがユーザー(クローズドソースモデルやAPI呼び出しでアクセスしたモデルなど)から隠されているLLMの順序感度の程度を調査します。
私たちは、言い換え、関連性の判断、複数選択の質問など、複数のタスクで実験を実施します。
私たちの結果は、入力順序がタスク全体のパフォーマンスに大きく影響し、シャッフルされた入力が出力の精度の測定可能な低下につながることを示しています。
少数のショットプロンプトは、混合効果を示し、部分的な緩和を提供します。
ただし、問題を完全に解決できません。
これらの調査結果は、特にハイステークスアプリケーションでの持続的なリスクを強調し、将来の開発におけるより堅牢なLLMSまたは改善された入力手法の必要性を示しています。

要約(オリジナル)

As large language models (LLMs) become integral to diverse applications, ensuring their reliability under varying input conditions is crucial. One key issue affecting this reliability is order sensitivity, wherein slight variations in the input arrangement can lead to inconsistent or biased outputs. Although recent advances have reduced this sensitivity, the problem remains unresolved. This paper investigates the extent of order sensitivity in LLMs whose internal components are hidden from users (such as closed-source models or those accessed via API calls). We conduct experiments across multiple tasks, including paraphrasing, relevance judgment, and multiple-choice questions. Our results show that input order significantly affects performance across tasks, with shuffled inputs leading to measurable declines in output accuracy. Few-shot prompting demonstrates mixed effectiveness and offers partial mitigation; however, fails to fully resolve the problem. These findings highlight persistent risks, particularly in high-stakes applications, and point to the need for more robust LLMs or improved input-handling techniques in future development.

arxiv情報

著者 Bryan Guan,Tanya Roosta,Peyman Passban,Mehdi Rezagholizadeh
発行日 2025-05-09 16:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Order Effect: Investigating Prompt Sensitivity to Input Order in LLMs はコメントを受け付けていません

Combining Abstract Argumentation and Machine Learning for Efficiently Analyzing Low-Level Process Event Streams

要約

プロセストレースの監視と分析は、現代の企業や組織にとって重要なタスクです。
トレースイベントと参照ビジネスアクティビティの間にギャップがあるシナリオでは、これには解釈の問題が必要であり、進行中の各イベントをアクティビティインスタンスの対応するステップに翻訳することになります。
解釈の問題を抽象的な議論フレームワーク(AAF)内の受け入れ問題として構築する最近のアプローチに基づいて、もっともらしい出来事の解釈(おそらく集約された形式)をエレガントに分析し、以前のプロセス知識と対立する人々の説明を提供することができます。
イベントからアクティビティへのマッピングが非常に不確実である(または単に指定されていない)設定では、この推論に基づくアプローチが低語に基づいた結果と重い計算をもたらす可能性があるため、コンテキストを使用して非常に強化できる候補者のイベント解釈を提案するように訓練されたシーケンセタグモデルを発見することを考えることができます。
ただし、このようなモデルを最適にトレーニングするには、手動で発表された大量のサンプルトレースを使用する必要があります。
環境的および社会的持続可能性(労働力/計算コストの削減と炭素排出量の削減)を可能にするグリーンAIソリューションを開発する緊急の必要性を考慮して、問題に対するデータ/計算効率の良いニューロサンボリックアプローチを提案します。
これにより、実験結果で確認されているように、事前の知識を活用して、例データの希少性を補償することもできます。
明らかに、このプロパティは、データアノテーションとモデルの最適化コストが厳しい制約の対象となる設定で特に役立ちます。

要約(オリジナル)

Monitoring and analyzing process traces is a critical task for modern companies and organizations. In scenarios where there is a gap between trace events and reference business activities, this entails an interpretation problem, amounting to translating each event of any ongoing trace into the corresponding step of the activity instance. Building on a recent approach that frames the interpretation problem as an acceptance problem within an Abstract Argumentation Framework (AAF), one can elegantly analyze plausible event interpretations (possibly in an aggregated form), as well as offer explanations for those that conflict with prior process knowledge. Since, in settings where event-to-activity mapping is highly uncertain (or simply under-specified) this reasoning-based approach may yield lowly-informative results and heavy computation, one can think of discovering a sequencetagging model, trained to suggest highly-probable candidate event interpretations in a context-aware way. However, training such a model optimally may require using a large amount of manually-annotated example traces. Considering the urgent need of developing Green AI solutions enabling environmental and societal sustainability (with reduced labor/computational costs and carbon footprint), we propose a data/computation-efficient neuro-symbolic approach to the problem, where the candidate interpretations returned by the example-driven sequence tagger is refined by the AAF-based reasoner. This allows us to also leverage prior knowledge to compensate for the scarcity of example data, as confirmed by experimental results; clearly, this property is particularly useful in settings where data annotation and model optimization costs are subject to stringent constraints.

arxiv情報

著者 Bettina Fazzinga,Sergio Flesca,Filippo Furfaro,Luigi Pontieri,Francesco Scala
発行日 2025-05-09 08:45:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Combining Abstract Argumentation and Machine Learning for Efficiently Analyzing Low-Level Process Event Streams はコメントを受け付けていません

From Models to Network Topologies: A Topology Inference Attack in Decentralized Federated Learning

要約

Federated Learning(FL)は、直接データ交換を回避するモデル共有メカニズムのため、プライバシーを提供する機械学習パラダイムとして広く認識されています。
それにもかかわらず、モデルトレーニングは、機密情報を推測するために使用できる悪用可能な痕跡を残します。
分散型FL(DFL)では、参加者がどのように接続されているかを定義するトポロジで、モデルのプライバシー、堅牢性、収束を形作る上で重要な役割を果たします。
ただし、トポロジは未開拓の脆弱性を導入します。攻撃者はそれを悪用して参加者の関係を推測し、ターゲット攻撃を開始できます。
この作業は、モデルの動作のみからトポロジを推進する新しいトポロジ推論攻撃を提案することにより、DFLトポロジの隠されたリスクを明らかにします。
トポロジー推論攻撃の分類が導入され、攻撃者の能力と知識によってそれらを分類します。
実用的な攻撃戦略は、さまざまなシナリオ向けに設計されており、攻撃の成功に影響を与える重要な要因を特定するために実験が行われます。
結果は、各ノードのモデルのみを分析することでDFLトポロジを正確に推測し、DFLシステムの重要なプライバシーリスクを強調できることを示しています。
これらの調査結果は、DFL環境でのプライバシー保存を改善するための貴重な洞察を提供します。

要約(オリジナル)

Federated Learning (FL) is widely recognized as a privacy-preserving machine learning paradigm due to its model-sharing mechanism that avoids direct data exchange. Nevertheless, model training leaves exploitable traces that can be used to infer sensitive information. In Decentralized FL (DFL), the topology, defining how participants are connected, plays a crucial role in shaping the model’s privacy, robustness, and convergence. However, the topology introduces an unexplored vulnerability: attackers can exploit it to infer participant relationships and launch targeted attacks. This work uncovers the hidden risks of DFL topologies by proposing a novel Topology Inference Attack that infers the topology solely from model behavior. A taxonomy of topology inference attacks is introduced, categorizing them by the attacker’s capabilities and knowledge. Practical attack strategies are designed for various scenarios, and experiments are conducted to identify key factors influencing attack success. The results demonstrate that analyzing only the model of each node can accurately infer the DFL topology, highlighting a critical privacy risk in DFL systems. These findings offer valuable insights for improving privacy preservation in DFL environments.

arxiv情報

著者 Chao Feng,Yuanzhe Gao,Alberto Huertas Celdran,Gerome Bovet,Burkhard Stiller
発行日 2025-05-09 08:49:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | From Models to Network Topologies: A Topology Inference Attack in Decentralized Federated Learning はコメントを受け付けていません

RadioDiff-Inverse: Diffusion Enhanced Bayesian Inverse Estimation for ISAC Radio Map Construction

要約

ラジオマップ(RMS)は、環境を意識した通信とセンシングに不可欠であり、位置固有のワイヤレスチャネル情報を提供します。
既存のRM建設方法は、多くの場合、正確な環境データと基地局(BS)の場所に依存しています。これらは、動的またはプライバシーに敏感な環境で常に利用できるとは限りません。
まばらな測定技術はデータ収集を減少させますが、RM精度に対するスパースデータのノイズの影響はよく理解されていません。
このペーパーでは、粗い環境知識とノイズの多いまばらな測定の下でのベイジアン逆問題としてRM構造を策定することにより、これらの課題に対処します。
最大A Postteriori(MAP)フィルタリングは最適なソリューションを提供しますが、RMの正確な事前分布が必要です。これは通常利用できません。
これを解決するために、無条件に強化されたベイジアン逆推定フレームワークであるRadiodiffの逆数を提案します。
このアプローチは、ワイヤレスチャネル機能の空間分布を再構築するだけでなく、統合センシングと通信(ISAC)を通じて、パスロスのジャストリレーの構築やBSの位置などの環境構造の知覚を可能にします。
驚くべきことに、Radiodiff-inverseはトレーニングフリーであり、タスク固有の微調整なしでイメージネットから事前に訓練されたモデルを活用しているため、ワイヤレスネットワークで生成的大規模モデルを使用するトレーニングコストが大幅に削減されます。
実験結果は、Radiodiffの逆転が、RM構造と環境再構築の精度とノイズの多いまばらなサンプリングに対する堅牢性の最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Radio maps (RMs) are essential for environment-aware communication and sensing, providing location-specific wireless channel information. Existing RM construction methods often rely on precise environmental data and base station (BS) locations, which are not always available in dynamic or privacy-sensitive environments. While sparse measurement techniques reduce data collection, the impact of noise in sparse data on RM accuracy is not well understood. This paper addresses these challenges by formulating RM construction as a Bayesian inverse problem under coarse environmental knowledge and noisy sparse measurements. Although maximum a posteriori (MAP) filtering offers an optimal solution, it requires a precise prior distribution of the RM, which is typically unavailable. To solve this, we propose RadioDiff-Inverse, a diffusion-enhanced Bayesian inverse estimation framework that uses an unconditional generative diffusion model to learn the RM prior. This approach not only reconstructs the spatial distribution of wireless channel features but also enables environmental structure perception, such as building outlines, and location of BS just relay on pathloss, through integrated sensing and communication (ISAC). Remarkably, RadioDiff-Inverse is training-free, leveraging a pre-trained model from Imagenet without task-specific fine-tuning, which significantly reduces the training cost of using generative large model in wireless networks. Experimental results demonstrate that RadioDiff-Inverse achieves state-of-the-art performance in accuracy of RM construction and environmental reconstruction, and robustness against noisy sparse sampling.

arxiv情報

著者 Xiucheng Wang,Zhongsheng Fang,Nan Cheng,Ruijin Sun,Zan Li,Xuemin,Shen
発行日 2025-05-09 08:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | RadioDiff-Inverse: Diffusion Enhanced Bayesian Inverse Estimation for ISAC Radio Map Construction はコメントを受け付けていません

LightNobel: Improving Sequence Length Limitation in Protein Structure Prediction Model via Adaptive Activation Quantization

要約

Alphafold2やESMFoldなどのタンパク質構造予測モデル(PPM)の最近の進歩は、3次元タンパク質折り畳み構造を予測する際に前例のない精度を達成することにより、計算生物学に革命をもたらしました。
ただし、これらのモデルは、特に長いアミノ酸配列を持つタンパク質を処理する場合(たとえば、配列長1,000)、重要なスケーラビリティの課題に直面しています。
活性化サイズの指数関数的な成長から生じる主要なボトルネックは、PPMの一意のデータ構造によって駆動され、実質的なメモリと計算の要求につながる追加の次元をもたらします。
これらの制限により、大規模なタンパク質や複雑なマルチマーの重要な生物学的および医薬品関連性を分析するなど、実際のアプリケーションのPPMの効果的なスケーリングが妨げられています。
このホワイトペーパーでは、PPMのシーケンス長のスケーラビリティ制限を克服するために開発された最初のハードウェアソフトウェアの共同設計アクセラレータであるLightNobelを紹介します。
ソフトウェアレベルでは、トークンごとの適応活性化量子化(AAQ)を提案します。これは、PPM活性化の特徴パターンなどの独自のトークンごとの特性を活用して、精度を損なうことなく細粒の量子化技術を可能にします。
ハードウェアレベルでは、LightNobelは、AAQの効率的な実行を可能にするために、マルチエシジョン再構成可能マトリックス処理ユニット(RMPU)および汎用ベクター処理ユニット(VVPU)を統合します。
これらのイノベーションを通じて、LightNobelは、最新のNVIDIA A100およびH100 GPUでそれぞれ最大8.44倍、8.41倍のスピードアップ、37.29倍、43.35倍の電力効率を達成し、それぞれ無視できる精度損失を維持します。
また、PPMでピークメモリ要件を最大120.05倍に削減し、長いシーケンスを持つタンパク質のスケーラブルな処理を可能にします。

要約(オリジナル)

Recent advances in Protein Structure Prediction Models (PPMs), such as AlphaFold2 and ESMFold, have revolutionized computational biology by achieving unprecedented accuracy in predicting three-dimensional protein folding structures. However, these models face significant scalability challenges, particularly when processing proteins with long amino acid sequences (e.g., sequence length > 1,000). The primary bottleneck that arises from the exponential growth in activation sizes is driven by the unique data structure in PPM, which introduces an additional dimension that leads to substantial memory and computational demands. These limitations have hindered the effective scaling of PPM for real-world applications, such as analyzing large proteins or complex multimers with critical biological and pharmaceutical relevance. In this paper, we present LightNobel, the first hardware-software co-designed accelerator developed to overcome scalability limitations on the sequence length in PPM. At the software level, we propose Token-wise Adaptive Activation Quantization (AAQ), which leverages unique token-wise characteristics, such as distogram patterns in PPM activations, to enable fine-grained quantization techniques without compromising accuracy. At the hardware level, LightNobel integrates the multi-precision reconfigurable matrix processing unit (RMPU) and versatile vector processing unit (VVPU) to enable the efficient execution of AAQ. Through these innovations, LightNobel achieves up to 8.44x, 8.41x speedup and 37.29x, 43.35x higher power efficiency over the latest NVIDIA A100 and H100 GPUs, respectively, while maintaining negligible accuracy loss. It also reduces the peak memory requirement up to 120.05x in PPM, enabling scalable processing for proteins with long sequences.

arxiv情報

著者 Seunghee Han,Soongyu Choi,Joo-Young Kim
発行日 2025-05-09 09:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: B.7, cs.AI, cs.AR, cs.ET, cs.LG | LightNobel: Improving Sequence Length Limitation in Protein Structure Prediction Model via Adaptive Activation Quantization はコメントを受け付けていません

Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI

要約

最新の自動車インフォテインメントシステムには、頻繁なユーザーインターフェイス(UI)の更新と多様な設計バリエーションを処理するためのインテリジェントで適応的なソリューションが必要です。
自動車のインフォテインメントシステムを理解し、相互作用するためのビジョン言語フレームワークを紹介し、さまざまなUIデザインにわたってシームレスな適応を可能にします。
この分野での研究をさらにサポートするために、4,208の注釈付きの998画像のオープンソースデータセットであるAutomotiveUI-Bench-4Kをリリースします。
さらに、トレーニングデータを生成するための合成データパイプラインを提示します。
低ランク適応(LORA)を使用してMolmo-7Bベースのモデルを微調整し、視覚的な接地と評価機能とともに、パイプラインによって生成された推論を組み込みます。
微調整された評価大規模アクションモデル(ELAM)は、AutomotiveUI-Bench-4K(モデルとデータセットが顔を抱きしめて利用できる)で強力なパフォーマンスを実現し、ベースラインモデル上のスクリーンスポットでのA +5.2%の改善を含む強力なクロスドメイン一般化を実証します。
特に、私たちのアプローチは、Infotainmentドメインの訓練を受けているにもかかわらず、Showuiなどのデスクトップ、モバイル、Webの特殊なモデルを密接に一致させる、または密接に一致させる、またはそれを上回る、またはさらに一致している、またはそれを上回ります。
この研究では、データ収集とその後の微調整が、自動車のUIの理解と相互作用の中でAI駆動型の進歩にどのようにつながるかを調査しています。
適用された方法は費用効率が高く、微調整されたモデルは消費者グレードGPUに展開できます。

要約(オリジナル)

Modern automotive infotainment systems require intelligent and adaptive solutions to handle frequent User Interface (UI) updates and diverse design variations. We introduce a vision-language framework for understanding and interacting with automotive infotainment systems, enabling seamless adaptation across different UI designs. To further support research in this field, we release AutomotiveUI-Bench-4K, an open-source dataset of 998 images with 4,208 annotations. Additionally, we present a synthetic data pipeline to generate training data. We fine-tune a Molmo-7B-based model using Low-Rank Adaptation (LoRa) and incorporating reasoning generated by our pipeline, along with visual grounding and evaluation capabilities. The fine-tuned Evaluative Large Action Model (ELAM) achieves strong performance on AutomotiveUI-Bench-4K (model and dataset are available on Hugging Face) and demonstrating strong cross-domain generalization, including a +5.2% improvement on ScreenSpot over the baseline model. Notably, our approach achieves 80.4% average accuracy on ScreenSpot, closely matching or even surpassing specialized models for desktop, mobile, and web, such as ShowUI, despite being trained for the infotainment domain. This research investigates how data collection and subsequent fine-tuning can lead to AI-driven progress within automotive UI understanding and interaction. The applied method is cost-efficient and fine-tuned models can be deployed on consumer-grade GPUs.

arxiv情報

著者 Benjamin Raphael Ernhofer,Daniil Prokhorov,Jannica Langner,Dominik Bollmann
発行日 2025-05-09 09:01:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI はコメントを受け付けていません

ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget

要約

エンティティリンク(EL)と関係抽出(RE)は、自然言語処理における基本的なタスクであり、幅広いアプリケーションで重要なコンポーネントとして機能します。
このホワイトペーパーでは、ELとREの両方のレトリバーリーダーアーキテクチャであるRelikを提案します。入力テキストが与えられた場合、Retriverモジュールは、テキスト内に表示される可能性のある候補エンティティまたは関係の識別を引き受けます。
その後、リーダーモジュールは、適切な検索されたエンティティまたは関係を識別し、対応するテキストスパンとの整合を確立するように任されます。
特に、テキストとともに候補者のエンティティまたは関係を組み込んだ革新的な入力表現を提唱し、単一のフォワードパスでエンティティをリンクまたは抽出し、事前に訓練された言語モデルのコンテキスト化機能を完全に活用できるようにします。
ELとREの策定は、学術予算トレーニングを使用しながら、競技者と比較して最大40倍の推論速度で、ドメイン内およびドメイン外のベンチマークの両方で最先端のパフォーマンスを達成しています。
最後に、情報抽出(CIE)、つまりEL + RE、およびエンティティと関係を同時に抽出する共有リーダーを採用することにより、新しい最新の最新技術を設定するために、私たちのアーキテクチャをシームレスに使用する方法を示します。

要約(オリジナル)

Entity Linking (EL) and Relation Extraction (RE) are fundamental tasks in Natural Language Processing, serving as critical components in a wide range of applications. In this paper, we propose ReLiK, a Retriever-Reader architecture for both EL and RE, where, given an input text, the Retriever module undertakes the identification of candidate entities or relations that could potentially appear within the text. Subsequently, the Reader module is tasked to discern the pertinent retrieved entities or relations and establish their alignment with the corresponding textual spans. Notably, we put forward an innovative input representation that incorporates the candidate entities or relations alongside the text, making it possible to link entities or extract relations in a single forward pass and to fully leverage pre-trained language models contextualization capabilities, in contrast with previous Retriever-Reader-based methods, which require a forward pass for each candidate. Our formulation of EL and RE achieves state-of-the-art performance in both in-domain and out-of-domain benchmarks while using academic budget training and with up to 40x inference speed compared to competitors. Finally, we show how our architecture can be used seamlessly for Information Extraction (cIE), i.e. EL + RE, and setting a new state of the art by employing a shared Reader that simultaneously extracts entities and relations.

arxiv情報

著者 Riccardo Orlando,Pere-Lluis Huguet Cabot,Edoardo Barba,Roberto Navigli
発行日 2025-05-09 09:02:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget はコメントを受け付けていません

IRNN: Innovation-driven Recurrent Neural Network for Time-Series Data Modeling and Prediction

要約

多くの現実世界のデータセットは、連続的に収集され、豊富な時間情報を含む時系列です。
したがって、実践に対する共通の関心は、時系列のダイナミクスを捉え、将来の進化を予測することです。
この目的のために、再発性ニューラルネットワーク(RNN)は、非線形状態空間モデルの表現を認める一般的で効果的な機械学習オプションでした。
線形状態空間モデルのRNNとKalmanフィルター(KF)の類似に動機付けられ、このペーパーでは、タイムシリーズのデータ​​モデリングと予測タスクに合わせた新しいRNNアーキテクチャであるこの論文のイノベーション駆動型RNN(IRNN)を提案します。
「イノベーション」の概念をKFからRNNに適合させることにより、過去の予測エラーが追加の入力信号として採用され、RNNの隠された状態を更新し、予測パフォーマンスを高めます。
イノベーションデータはネットワークパラメーターに依存するため、RNNの既存のトレーニングアルゴリズムはIRNNに簡単に適用されません。
したがって、時間による入力更新ベースのバックプロパゲーションと呼ばれるテーラードトレーニングアルゴリズム(IU-BPTT)がさらに提案されており、これはイノベーションの更新と勾配降下を介したネットワークパラメーターの最適化とを交互に行います。
実際のベンチマークデータセットでの実験は、さまざまな形態のRNNにイノベーションを統合することで、トレーニングコストを大幅に増加させることなくIRNNの予測精度が著しく改善されることを示しています。

要約(オリジナル)

Many real-world datasets are time series that are sequentially collected and contain rich temporal information. Thus, a common interest in practice is to capture dynamics of time series and predict their future evolutions. To this end, the recurrent neural network (RNN) has been a prevalent and effective machine learning option, which admits a nonlinear state-space model representation. Motivated by the resemblance between RNN and Kalman filter (KF) for linear state-space models, we propose in this paper Innovation-driven RNN (IRNN), a novel RNN architecture tailored to time-series data modeling and prediction tasks. By adapting the concept of ‘innovation’ from KF to RNN, past prediction errors are adopted as additional input signals to update hidden states of RNN and boost prediction performance. Since innovation data depend on network parameters, existing training algorithms for RNN do not apply to IRNN straightforwardly. Thus, a tailored training algorithm dubbed input updating-based back-propagation through time (IU-BPTT) is further proposed, which alternates between updating innovations and optimizing network parameters via gradient descent. Experiments on real-world benchmark datasets show that the integration of innovations into various forms of RNN leads to remarkably improved prediction accuracy of IRNN without increasing the training cost substantially.

arxiv情報

著者 Yifan Zhou,Yibo Wang,Chao Shang
発行日 2025-05-09 09:43:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | IRNN: Innovation-driven Recurrent Neural Network for Time-Series Data Modeling and Prediction はコメントを受け付けていません

Subspace Aggregation Query and Index Generation for Multidimensional Resource Space Model

要約

多次元分類スペースでリソースを整理することは、大規模なリソースを効率的に管理しクエリするアプローチです。
このペーパーでは、各ディメンションの座標ツリーの部分順序の範囲で定義されたサブスペースの集約クエリを定義します。各ポイントには、ポイント上の部分順序関係の経路に沿って集約されたリソースが含まれているため、サブスペース内の各ポイントの集計リソースを測定、ランク付け、選択します。
大規模な部分空間で空白以外のポイントを効率的に見つけるために、グラフインデックスを生成するアプローチが提案され、ディメンションの座標に部分的な順序関係を持つ包含リンクを構築して、サブスペースクエリがスーパーポイントに戻るインデックスパスに沿ってインデックスリンクをフォローし、リソースを集計することにより空白のポイントに到達できるようにします。
このようなインデックスの生成は、インデックスノードの子供の数が非常に大きいため、インデックスングノードの総数がバウンドされていないため、コストがかかります。
提案されたアプローチは、コストを削減するための次の戦略を採用しています。(1)2つのインデックスノード間に交差リンクを追加すると、グラフインデックスのノードの数を制御しながらクエリ処理コストをより適切に削減できます。
(2)2つのノード間に交点を追加するコストを推定するために計算された確率分布に従って、2つのノード間に交差リンクが追加されます。
(3)より多くのリソースを持つ1つの次元での座標は、ノードのインデックス作成によって保持されるリソースの数のバランスをとるために、別の次元で座標によって分割されます。
(4)座標ツリーの兄弟座標間にショートカットリンクが追加され、線形順序座標で効率的なクエリを作成します。
分析と実験により、サブスペース集約クエリをサポートする際の生成されたインデックスの有効性が検証されました。
この作業は、多次元分類に基づいてデータモデルの開発に大きく貢献します。

要約(オリジナル)

Organizing resources in a multidimensional classification space is an approach to efficiently managing and querying large-scale resources. This paper defines an aggregation query on subspace defined by a range on the partial order on coordinate tree at each dimension, where each point contains resources aggregated along the paths of partial order relations on the points so that aggregated resources at each point within the subspace can be measured, ranked and selected. To efficiently locate non-empty points in a large subspace, an approach to generating graph index is proposed to build inclusion links with partial order relations on coordinates of dimensions to enable a subspace query to reach non-empty points by following indexing links and aggregate resources along indexing paths back to their super points. Generating such an index is costly as the number of children of an index node can be very large so that the total number of indexing nodes is unbounded. The proposed approach adopts the following strategies to reduce the cost: (1) adding intersection links between two indexing nodes, which can better reduce query processing costs while controlling the number of nodes of the graph index; (2) intersection links are added between two nodes according to the probabilistic distribution calculated for estimating the costs of adding intersection between two nodes; (3) coordinates at one dimension having more resources are split by coordinates at another dimension to balance the number of resources hold by indexing nodes; and, (4) short-cut links are added between sibling coordinates of coordinate trees to make an efficient query on linear order coordinates. Analysis and experiments verified the effectiveness of the generated index in supporting subspace aggregation query. This work makes significant contributions to the development of data model based on multi-dimensional classification.

arxiv情報

著者 Xiaoping Sun,Hai Zhuge
発行日 2025-05-09 10:17:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | Subspace Aggregation Query and Index Generation for Multidimensional Resource Space Model はコメントを受け付けていません

AVA: Attentive VLM Agent for Mastering StarCraft II

要約

人工エージェントの知覚を人間のゲームプレイエクスペリエンスに合わせるマルチモーダルスタークラフトIIエージェントであるAttentive VLM Agent(AVA)を紹介します。
SMACなどの従来のフレームワークは、人間の認識から大きく分岐する抽象的な状態表現に依存しており、エージェントの行動の生態学的妥当性を制限しています。
私たちのエージェントは、ゲームプレイ中に人間の認知プロセスをより密接にシミュレートするRGBの視覚入力と自然言語の観察を組み込むことにより、この制限に対処します。
AVAアーキテクチャは、3つの統合コンポーネントで構成されています。(1)戦略的単位ターゲティングと戦場評価のための特殊な自己触媒メカニズムで強化された視覚言語モデル、(2)ドメイン固有のStarcraft II知識を活用して、戦術的な決定を知らせます。
21のマルチモーダルスタークラフトIIシナリオを含む提案されているAvacraft環境での実験的評価は、AVAが基礎モデル(具体的にはQWEN-VLおよびGPT-4O)を搭載していることを示しています。
この作業は、人間に合わせたStarcraft IIエージェントを開発するための基盤を確立し、マルチモーダルゲームAIのより広範な研究アジェンダを進めています。
実装はhttps://github.com/camel-ai/vlm-play-starcraft2で入手できます。

要約(オリジナル)

We introduce Attentive VLM Agent (AVA), a multimodal StarCraft II agent that aligns artificial agent perception with the human gameplay experience. Traditional frameworks such as SMAC rely on abstract state representations that diverge significantly from human perception, limiting the ecological validity of agent behavior. Our agent addresses this limitation by incorporating RGB visual inputs and natural language observations that more closely simulate human cognitive processes during gameplay. The AVA architecture consists of three integrated components: (1) a vision-language model enhanced with specialized self-attention mechanisms for strategic unit targeting and battlefield assessment, (2) a retrieval-augmented generation system that leverages domain-specific StarCraft II knowledge to inform tactical decisions, and (3) a dynamic role-based task distribution system that enables coordinated multi-agent behavior. The experimental evaluation in our proposed AVACraft environment, which contains 21 multimodal StarCraft II scenarios, demonstrates that AVA powered by foundation models (specifically Qwen-VL and GPT-4o) can execute complex tactical maneuvers without explicit training, achieving comparable performance to traditional MARL methods that require substantial training iterations. This work establishes a foundation for developing human-aligned StarCraft II agents and advances the broader research agenda of multimodal game AI. Our implementation is available at https://github.com/camel-ai/VLM-Play-StarCraft2.

arxiv情報

著者 Weiyu Ma,Yuqian Fu,Zecheng Zhang,Bernard Ghanem,Guohao Li
発行日 2025-05-09 10:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | AVA: Attentive VLM Agent for Mastering StarCraft II はコメントを受け付けていません