WorkTeam: Constructing Workflows from Natural Language with Multi-Agents

要約

ワークフローは、複数のツールまたはコンポーネントを使用して複雑なプロセスを調整することにより、企業効率を高める上で重要な役割を果たします。
ただし、手作りのワークフロー構築には専門知識が必要であり、重要な技術的障壁を提示します。
大規模な言語モデル(LLMS)の最近の進歩により、自然言語の指示(別名NL2WorkFlow)からのワークフローの生成が改善されましたが、既存の単一LLMエージェントベースの方法は、専門知識とタスク投票の株の必要性のために複雑なタスクのパフォーマンスの低下に直面しています。
これらの課題に取り組むために、スーパーバイザー、オーケストレーター、およびフィラーエージェントを含むマルチエージェントNL2WorkFlowフレームワークであるWorkTeamを提案します。
現在、公開されているNL2WorkFlowベンチマークはないため、トレーニングと評価のための3,695の実際のビジネスサンプルを含むHW-NL2WorkFlowデータセットも紹介します。
実験結果は、このアプローチがワークフロー構築の成功率を大幅に増加させ、エンタープライズNL2WorkFlowサービスに斬新で効果的なソリューションを提供することを示しています。

要約(オリジナル)

Workflows play a crucial role in enhancing enterprise efficiency by orchestrating complex processes with multiple tools or components. However, hand-crafted workflow construction requires expert knowledge, presenting significant technical barriers. Recent advancements in Large Language Models (LLMs) have improved the generation of workflows from natural language instructions (aka NL2Workflow), yet existing single LLM agent-based methods face performance degradation on complex tasks due to the need for specialized knowledge and the strain of task-switching. To tackle these challenges, we propose WorkTeam, a multi-agent NL2Workflow framework comprising a supervisor, orchestrator, and filler agent, each with distinct roles that collaboratively enhance the conversion process. As there are currently no publicly available NL2Workflow benchmarks, we also introduce the HW-NL2Workflow dataset, which includes 3,695 real-world business samples for training and evaluation. Experimental results show that our approach significantly increases the success rate of workflow construction, providing a novel and effective solution for enterprise NL2Workflow services.

arxiv情報

著者 Hanchao Liu,Rongjun Li,Weimin Xiong,Ziyu Zhou,Wei Peng
発行日 2025-03-28 14:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | WorkTeam: Constructing Workflows from Natural Language with Multi-Agents はコメントを受け付けていません

Function Alignment: A New Theory of Mind and Intelligence, Part I: Foundations

要約

このペーパーでは、関数アラインメントを紹介します。これは、直感的に説得力があり、構造的に接地された、心と知性の新しい理論です。
それは、階層化された表現間の相互作用から意味、解釈、類推がどのように出現するかを明示的にモデル化し、マインドをモデリングするだけでなく、それらを構築するための青写真としても役立つ一貫したフレームワークを形成します。
関数のアライメントから導き出された重要な理論的洞察の1つは、境界のある解釈可能性であり、これは、境界の合理性、シンボル接地、類推などの認知科学における以前に断片化されたアイデアの統一された説明を提供します。
モデリングを超えて、関数アラインメントフレームワークは、しばしば分解され、計算アーキテクチャ、心理理論、さらにはZenなどの瞑想的な伝統をリンクし、分野を橋渡しします。
哲学的システムに基づいているのではなく、心を理解する複数の方法が再構築される可能性のある構造的基盤を提供します。

要約(オリジナル)

This paper introduces function alignment, a novel theory of mind and intelligence that is both intuitively compelling and structurally grounded. It explicitly models how meaning, interpretation, and analogy emerge from interactions among layered representations, forming a coherent framework capable not only of modeling minds but also of serving as a blueprint for building them. One of the key theoretical insights derived from function alignment is bounded interpretability, which provides a unified explanation for previously fragmented ideas in cognitive science, such as bounded rationality, symbol grounding, and analogy-making. Beyond modeling, the function alignment framework bridges disciplines often kept apart, linking computational architecture, psychological theory, and even contemplative traditions such as Zen. Rather than building on any philosophical systems, it offers a structural foundation upon which multiple ways of understanding the mind may be reconstructed.

arxiv情報

著者 Gus G. Xia
発行日 2025-03-28 14:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T27, 91E45, cs.CL, F.4.1 | Function Alignment: A New Theory of Mind and Intelligence, Part I: Foundations はコメントを受け付けていません

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

要約

大規模な言語モデル(LLMS)は、数学、物理学、コンピューターサイエンスなどの主流の学術分野において顕著な習熟度を示しています。
ただし、人間の知識には、既存のベンチマークの範囲をはるかに超える200を超える専門分野が含まれます。
これらの専門分野の多くにおけるLLMの能力は、特に産業、農業、およびサービス指向の分野において、不十分に評価されています。
このギャップに対処するために、285の分野で大学院レベルの知識と推論能力を評価する包括的なベンチマークであるSuperGPQAを提示します。
当社のベンチマークは、LLM応答と専門家のフィードバックの両方に基づいた反復改良により、些細なまたは曖昧な質問を排除するために、新しいヒューマンLLM共同溶融フィルタリングメカニズムを採用しています。
私たちの実験結果は、多様な知識ドメイン全体で現在の最先端のLLMのパフォーマンスを改善するための重要な余地を明らかにしています(たとえば、推論に焦点を当てたモデルDeepSeek-R1は、SuperGPQAで61.82%の最高精度を達成し、現在のモデル能力と人工的な一般情報の間のかなりのギャップを強調しました。
さらに、80を超える専門家アノテーターとインタラクティブな人間の共同体系を含む大規模な注釈プロセスの管理から包括的な洞察を提示し、同等の範囲の将来の研究イニシアチブのための貴重な方法論的ガイダンスを提供します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable proficiency in mainstream academic disciplines such as mathematics, physics, and computer science. However, human knowledge encompasses over 200 specialized disciplines, far exceeding the scope of existing benchmarks. The capabilities of LLMs in many of these specialized fields-particularly in light industry, agriculture, and service-oriented disciplines-remain inadequately evaluated. To address this gap, we present SuperGPQA, a comprehensive benchmark that evaluates graduate-level knowledge and reasoning capabilities across 285 disciplines. Our benchmark employs a novel Human-LLM collaborative filtering mechanism to eliminate trivial or ambiguous questions through iterative refinement based on both LLM responses and expert feedback. Our experimental results reveal significant room for improvement in the performance of current state-of-the-art LLMs across diverse knowledge domains (e.g., the reasoning-focused model DeepSeek-R1 achieved the highest accuracy of 61.82% on SuperGPQA), highlighting the considerable gap between current model capabilities and artificial general intelligence. Additionally, we present comprehensive insights from our management of a large-scale annotation process, involving over 80 expert annotators and an interactive Human-LLM collaborative system, offering valuable methodological guidance for future research initiatives of comparable scope.

arxiv情報

著者 M-A-P Team,Xinrun Du,Yifan Yao,Kaijing Ma,Bingli Wang,Tianyu Zheng,King Zhu,Minghao Liu,Yiming Liang,Xiaolong Jin,Zhenlin Wei,Chujie Zheng,Kaixin Deng,Shawn Gavin,Shian Jia,Sichao Jiang,Yiyan Liao,Rui Li,Qinrui Li,Sirun Li,Yizhi Li,Yunwen Li,David Ma,Yuansheng Ni,Haoran Que,Qiyao Wang,Zhoufutu Wen,Siwei Wu,Tyshawn Hsing,Ming Xu,Zhenzhu Yang,Zekun Moore Wang,Junting Zhou,Yuelin Bai,Xingyuan Bu,Chenglin Cai,Liang Chen,Yifan Chen,Chengtuo Cheng,Tianhao Cheng,Keyi Ding,Siming Huang,Yun Huang,Yaoru Li,Yizhe Li,Zhaoqun Li,Tianhao Liang,Chengdong Lin,Hongquan Lin,Yinghao Ma,Tianyang Pang,Zhongyuan Peng,Zifan Peng,Qige Qi,Shi Qiu,Xingwei Qu,Shanghaoran Quan,Yizhou Tan,Zili Wang,Chenqing Wang,Hao Wang,Yiya Wang,Yubo Wang,Jiajun Xu,Kexin Yang,Ruibin Yuan,Yuanhao Yue,Tianyang Zhan,Chun Zhang,Jinyang Zhang,Xiyue Zhang,Xingjian Zhang,Yue Zhang,Yongchi Zhao,Xiangyu Zheng,Chenghua Zhong,Yang Gao,Zhoujun Li,Dayiheng Liu,Qian Liu,Tianyu Liu,Shiwen Ni,Junran Peng,Yujia Qin,Wenbo Su,Guoyin Wang,Shi Wang,Jian Yang,Min Yang,Meng Cao,Xiang Yue,Zhaoxiang Zhang,Wangchunshu Zhou,Jiaheng Liu,Qunshu Lin,Wenhao Huang,Ge Zhang
発行日 2025-03-28 15:21:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines はコメントを受け付けていません

Bridging the Dimensional Chasm: Uncover Layer-wise Dimensional Reduction in Transformers through Token Correlation

要約

大規模な言語モデル(LLMS)のトークン表現の幾何学的進化は基本的なパラドックスを提示します。人間の言語は本質的に低次元空間($ \ sim 10^1 $寸法)でセマンティック情報を整理し、現代のLLMは高次元の埋め込み($ \ sim 10^3 $寸法)を使用します。
このパラドックスを解決するために、この作業は、変圧器層全体のトークンダイナミクスを追跡する幾何学的フレームワークを開発することにより、この概念的なギャップを橋渡しします。
複数のアーキテクチャにわたる本質的な寸法のレイヤーごとの分析により、トークンが「作業空間」に拡散し、次第に低次元サブマニホールドに投影する拡張制御パターンを明らかにします。
私たちの発見は、LLMSの作業空間ディメンションとパラメーターに敏感なパフォーマンスとの間の負の相関を意味し、効果的なモデルがトークンを約10次元サブマニホールドに圧縮する傾向があり、人間のセマンティックスペースに非常に似ていることを示しています。
この作業は、高次元の計算と低次元のセマンティクスを媒介するプロジェクターとして変圧器層を再構成することにより、LLMの解釈性を向上させるだけでなく、タスク固有の評価に依存しないモデル診断の実用的なツールも提供します。

要約(オリジナル)

The geometric evolution of token representations in large language models (LLMs) presents a fundamental paradox: while human language inherently organizes semantic information in low-dimensional spaces ($\sim 10^1$ dimensions), modern LLMs employ high-dimensional embeddings ($\sim 10^3$ dimensions) processed through Transformer architectures. To resolve this paradox, this work bridges this conceptual gap by developing a geometric framework that tracks token dynamics across Transformers layers. Through layer-wise analysis of intrinsic dimensions across multiple architectures, we reveal an expansion-contraction pattern where tokens diffuse to a ‘working space’ and then progressively project onto lower-dimensional submanifolds. Our finding implies a negative correlation between the working space dimension and parameter-sensitive performance of the LLMs, and indicates that effective models tend to compress tokens into approximately 10-dimensional submanifolds, closely resembling human semantic spaces. This work not only advances LLM interpretability by reframing Transformers layers as projectors that mediate between high-dimensional computation and low-dimensional semantics, but also provides practical tools for model diagnostics that do not rely on task-specific evaluations.

arxiv情報

著者 Zhuo-Yang Song,Zeyu Li,Qing-Hong Cao,Ming-xing Luo,Hua Xing Zhu
発行日 2025-03-28 15:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Bridging the Dimensional Chasm: Uncover Layer-wise Dimensional Reduction in Transformers through Token Correlation はコメントを受け付けていません

Beyond Vanilla Fine-Tuning: Leveraging Multistage, Multilingual, and Domain-Specific Methods for Low-Resource Machine Translation

要約

微調整多言語シーケンスからシーケンス大型言語モデル(MSLLMS)は、低リソース言語(LRL)の神経機械翻訳(NMT)システムの開発において有望を示しています。
ただし、従来のシングルステージの微調整方法は、トレーニングデータが非常に限られている非常に低リソースのNMT設定で苦労しています。
このペーパーは、これらの挑戦的なシナリオでMSLLMを適応させるための2つのアプローチを提案することにより、人工知能に貢献します:(1)継続的なトレーニング(CPT)。MSLLMは、LRLの過小評価を補うためにドメイン固有の単一言語データでさらに訓練されています。
ドメイン外の並列データは、さまざまなドメインとタスクにわたる翻訳機能を強化します。
エンジニアリングのアプリケーションとして、これらの方法は、ドメイン固有の非常に低リソース設定(100,000未満のサンプルを含むデータセット)で、シンハラ、タミル語、および英語(6つの言語ペア)のNMTシステムに実装されています。
私たちの実験では、これらのアプローチが、すべての翻訳方向にわたる標準の単一段階の微調整ベースラインと比較して、平均+1.47バイリンガル評価アンテナ(BLE)スコアによって翻訳性能を高めることが明らかになりました。
さらに、マルチモデルアンサンブルは、追加のBLEUスコアによってパフォーマンスをさらに向上させます。

要約(オリジナル)

Fine-tuning multilingual sequence-to-sequence large language models (msLLMs) has shown promise in developing neural machine translation (NMT) systems for low-resource languages (LRLs). However, conventional single-stage fine-tuning methods struggle in extremely low-resource NMT settings, where training data is very limited. This paper contributes to artificial intelligence by proposing two approaches for adapting msLLMs in these challenging scenarios: (1) continual pre-training (CPT), where the msLLM is further trained with domain-specific monolingual data to compensate for the under-representation of LRLs, and (2) intermediate task transfer learning (ITTL), a method that fine-tunes the msLLM with both in-domain and out-of-domain parallel data to enhance its translation capabilities across various domains and tasks. As an application in engineering, these methods are implemented in NMT systems for Sinhala, Tamil, and English (six language pairs) in domain-specific, extremely low-resource settings (datasets containing fewer than 100,000 samples). Our experiments reveal that these approaches enhance translation performance by an average of +1.47 bilingual evaluation understudy (BLEU) score compared to the standard single-stage fine-tuning baseline across all translation directions. Additionally, a multi-model ensemble further improves performance by an additional BLEU score.

arxiv情報

著者 Sarubi Thillainathan,Songchen Yuan,En-Shiun Annie Lee,Sanath Jayasena,Surangika Ranathunga
発行日 2025-03-28 16:30:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Vanilla Fine-Tuning: Leveraging Multistage, Multilingual, and Domain-Specific Methods for Low-Resource Machine Translation はコメントを受け付けていません

Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions

要約

この作業では、動的診断設定でLLMパフォーマンスを評価および強化するために設計された医師、患者、および測定剤を対象としたオープンソースシミュレーション臨床環境であるMedagentsimを紹介します。
以前のアプローチとは異なり、当社のフレームワークでは、医師がマルチターン会話を通じて患者と積極的に関与する必要があり、関連する健康診断(温度、血圧、ECG)およびイメージング結果(例:MRI、X線)を測定剤から要求して、実際の診断プロセスを模倣します。
さらに、モデルが診断戦略を繰り返し改善できるようにする自己改善メカニズムを組み込みます。
マルチエージェントの議論、考え方の推論、および経験ベースの知識の検索を統合することにより、シミュレートされた設定でLLMパフォーマンスを向上させ、医師のエージェントがより多くの患者と相互作用するにつれて進歩的な学習を促進します。
また、動的でコンテキストを意識した診断相互作用に従事するLLMの能力を評価するための評価ベンチマークを紹介します。
Medagentimは完全に自動化されていますが、ユーザー制御モードもサポートし、医師または患者のエージェントとの人間の相互作用を可能にします。
さまざまなシミュレートされた診断シナリオの包括的な評価は、私たちのアプローチの有効性を示しています。
コード、シミュレーションツール、およびベンチマークは、\ href {https://medagentim.netlify.app/}で入手できます。

要約(オリジナル)

In this work, we introduce MedAgentSim, an open-source simulated clinical environment with doctor, patient, and measurement agents designed to evaluate and enhance LLM performance in dynamic diagnostic settings. Unlike prior approaches, our framework requires doctor agents to actively engage with patients through multi-turn conversations, requesting relevant medical examinations (e.g., temperature, blood pressure, ECG) and imaging results (e.g., MRI, X-ray) from a measurement agent to mimic the real-world diagnostic process. Additionally, we incorporate self improvement mechanisms that allow models to iteratively refine their diagnostic strategies. We enhance LLM performance in our simulated setting by integrating multi-agent discussions, chain-of-thought reasoning, and experience-based knowledge retrieval, facilitating progressive learning as doctor agents interact with more patients. We also introduce an evaluation benchmark for assessing the LLM’s ability to engage in dynamic, context-aware diagnostic interactions. While MedAgentSim is fully automated, it also supports a user-controlled mode, enabling human interaction with either the doctor or patient agent. Comprehensive evaluations in various simulated diagnostic scenarios demonstrate the effectiveness of our approach. Our code, simulation tool, and benchmark are available at \href{https://medagentsim.netlify.app/}.

arxiv情報

著者 Mohammad Almansoori,Komal Kumar,Hisham Cholakkal
発行日 2025-03-28 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions はコメントを受け付けていません

On-site estimation of battery electrochemical parameters via transfer learning based physics-informed neural network approach

要約

このペーパーでは、物理学に基づいたニューラルネットワーク(PINN)と転送学習(TL)を使用した2相モデリング戦略を使用して、オンサイトモデルの特性評価のための新しい物理的パラメーター推定フレームワークを紹介します。
第1フェーズでは、PINNは、単一粒子モデル(SPM)方程式の物理的原理のみを使用してトレーニングされます。
第2フェーズでは、PINNパラメーターの大部分が凍結され、重要な電気化学パラメーターはトレーニング可能として設定され、実際の電圧プロファイルデータを使用して調整されます。
提案されたアプローチは計算コストを大幅に削減し、バッテリー管理システム(BMS)でのリアルタイムの実装に適しています。
さらに、初期フェーズではフィールドデータが必要ないため、モデルは最小限のセットアップ要件で簡単に展開できます。
提案された方法論により、操作データを使用して関連する電気化学パラメーターを効果的に推定することができました。
これは、異なる分解条件で電荷データを持つ拡散性と活性材料体積分画を推定することが証明されています。
方法論は、3.89 \%の相対精度を持つ標準電荷プロファイルのデータを使用して、その名目容量の82.09 \%を持つNMCセルの有効材料体積分率を推定するRaspberry PIデバイスで実験的に検証されます。

要約(オリジナル)

This paper presents a novel physical parameter estimation framework for on-site model characterization, using a two-phase modelling strategy with Physics-Informed Neural Networks (PINNs) and transfer learning (TL). In the first phase, a PINN is trained using only the physical principles of the single particle model (SPM) equations. In the second phase, the majority of the PINN parameters are frozen, while critical electrochemical parameters are set as trainable and adjusted using real-world voltage profile data. The proposed approach significantly reduces computational costs, making it suitable for real-time implementation on Battery Management Systems (BMS). Additionally, as the initial phase does not require field data, the model is easy to deploy with minimal setup requirements. With the proposed methodology, we have been able to effectively estimate relevant electrochemical parameters with operating data. This has been proved estimating diffusivities and active material volume fractions with charge data in different degradation conditions. The methodology is experimentally validated in a Raspberry Pi device using data from a standard charge profile with a 3.89\% relative accuracy estimating the active material volume fractions of a NMC cell with 82.09\% of its nominal capacity.

arxiv情報

著者 Josu Yeregui,Iker Lopetegi,Sergio Fernandez,Erik Garayalde,Unai Iraola
発行日 2025-03-28 13:06:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | On-site estimation of battery electrochemical parameters via transfer learning based physics-informed neural network approach はコメントを受け付けていません

EllieSQL: Cost-Efficient Text-to-SQL with Complexity-Aware Routing

要約

Text-to-SQLは、自然な言語クエリをSQLに自動的に変換し、非技術的なユーザーが特殊なSQL知識なしにデータベースからデータを取得できるようにします。
リーダーボードでの高度なLLMベースのテキストからSQLへのアプローチの成功にもかかわらず、現在のリーダーボード主導の研究では、持続不可能な計算コスト(しばしば見過ごされがちな)が「部屋の象」となり、現実世界の展開と広範な採用のための経済的実用性を制限しています。
これに取り組むために、推定された複雑さに基づいて適切なSQL生成パイプラインにクエリを割り当てる複雑さを意識したルーティングフレームワークであるElliesQlを探索的に提案します。
複数のルーターを調査して、簡単なクエリを効率的なアプローチに向け、複雑なケースの計算集約的な方法を予約します。
経済学から描画すると、パフォーマンスのトークン弾力性(TEP)メトリックを導入し、SQL生成へのトークン投資と比較してパフォーマンスゲインの応答性を定量化することにより、費用効率をキャプチャします。
実験では、我々の研究で常に最も高度な方法を使用するのと比較して、QWEN2.5-0.5B-DPOルーターを使用したElliesQlは、鳥の発達セットでパフォーマンスを侵害することなくトークンの使用を40%以上削減し、非ルーティングアプローチよりもTEPで2倍以上のブーストを達成することが示されています。
これは、費用効率の高いテキストからSQLの追求を進めるだけでなく、パフォーマンスとともにリソース効率の重量を量るようにコミュニティを招待し、持続可能なテキストからSQLの進歩に貢献します。

要約(オリジナル)

Text-to-SQL automatically translates natural language queries to SQL, allowing non-technical users to retrieve data from databases without specialized SQL knowledge. Despite the success of advanced LLM-based Text-to-SQL approaches on leaderboards, their unsustainable computational costs–often overlooked–stand as the ‘elephant in the room’ in current leaderboard-driven research, limiting their economic practicability for real-world deployment and widespread adoption. To tackle this, we exploratively propose EllieSQL, a complexity-aware routing framework that assigns queries to suitable SQL generation pipelines based on estimated complexity. We investigate multiple routers to direct simple queries to efficient approaches while reserving computationally intensive methods for complex cases. Drawing from economics, we introduce the Token Elasticity of Performance (TEP) metric, capturing cost-efficiency by quantifying the responsiveness of performance gains relative to token investment in SQL generation. Experiments show that compared to always using the most advanced methods in our study, EllieSQL with the Qwen2.5-0.5B-DPO router reduces token use by over 40% without compromising performance on Bird development set, achieving more than a 2x boost in TEP over non-routing approaches. This not only advances the pursuit of cost-efficient Text-to-SQL but also invites the community to weigh resource efficiency alongside performance, contributing to progress in sustainable Text-to-SQL.

arxiv情報

著者 Yizhang Zhu,Runzhi Jiang,Boyan Li,Nan Tang,Yuyu Luo
発行日 2025-03-28 13:11:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB | EllieSQL: Cost-Efficient Text-to-SQL with Complexity-Aware Routing はコメントを受け付けていません

Training Large Language Models for Advanced Typosquatting Detection

要約

タイプスカーティングは、ユーザーを欺き、マルウェアを配布し、フィッシング攻撃を実施するためにURLを入力する際に​​ヒューマンエラーを活用する長年のサイバー脅威です。
ドメイン名と新しいトップレベルのドメイン(TLD)の急増により、タイプスケート技術はより洗練され、個人、企業、および国家サイバーセキュリティインフラストラクチャに大きなリスクをもたらしました。
従来の検出方法は、主によく知られているなりすましパターンに焦点を当てており、より複雑な攻撃を特定する範囲を残しています。
この研究では、タイプスキャット検出を強化するために、大規模な言語モデル(LLMS)を活用する新しいアプローチを紹介します。
ドメイン固有のデータではなく、キャラクターレベルの変換とパターンベースのヒューリスティックに関するLLMをトレーニングすることにより、より適応性のある回復力のある検出メカニズムが開発されます。
実験結果は、PHI-4 14Bモデルが、数千のトレーニングサンプルで98%の精度を適切に調整した場合、他のテストモデルよりも優れていることを示しています。
この研究は、サイバーセキュリティアプリケーション、特にドメインベースの欺ception戦術の緩和におけるLLMの可能性を強調し、脅威検出のための機械学習戦略の最適化に関する洞察を提供します。

要約(オリジナル)

Typosquatting is a long-standing cyber threat that exploits human error in typing URLs to deceive users, distribute malware, and conduct phishing attacks. With the proliferation of domain names and new Top-Level Domains (TLDs), typosquatting techniques have grown more sophisticated, posing significant risks to individuals, businesses, and national cybersecurity infrastructure. Traditional detection methods primarily focus on well-known impersonation patterns, leaving gaps in identifying more complex attacks. This study introduces a novel approach leveraging large language models (LLMs) to enhance typosquatting detection. By training an LLM on character-level transformations and pattern-based heuristics rather than domain-specific data, a more adaptable and resilient detection mechanism develops. Experimental results indicate that the Phi-4 14B model outperformed other tested models when properly fine tuned achieving a 98% accuracy rate with only a few thousand training samples. This research highlights the potential of LLMs in cybersecurity applications, specifically in mitigating domain-based deception tactics, and provides insights into optimizing machine learning strategies for threat detection.

arxiv情報

著者 Jackson Welch
発行日 2025-03-28 13:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.NI | Training Large Language Models for Advanced Typosquatting Detection はコメントを受け付けていません

Autonomous AI imitators increase diversity in homogeneous information ecosystems

要約

大規模な言語モデル(LLMS)の最近のブレークスルーにより、人間が生成したコンテンツを模倣できる自律AIエージェントが促進されました。
この技術の進歩は、情報生態系の多様性と民主的価値に対するAIの影響に関する基本的な疑問を提起します。
大規模なシミュレーションフレームワークを紹介して、ニュース内のAIベースの模倣を調べることができます。これは、公の談話に不可欠なコンテキストです。
初期の多様性がさまざまなさまざまな情報環境で2つの異なる模倣戦略を体系的にテストすることにより、AI生成された記事が均一に均質化しないことを実証します。
代わりに、AIの影響は強くコンテキスト依存しています。AI生成されたコンテンツは、もともと均質なニュース環境で貴重な多様性を導入できますが、最初は不均一なコンテキストで多様性を低下させます。
これらの結果は、情報環境の初期の多様性がAIの影響を強く形成し、AI主導の模倣が多様性を脅かすという仮定に挑戦していることを示しています。
代わりに、情報が最初に均一である場合、AI駆動型の模倣は視点、スタイル、およびトピックを拡大することができます。
これは、情報の多様性が、市民を代替の視点にさらし、バイアスに挑戦し、弾力性のある民主主義に不可欠な物語の独占を防ぐことにより、より豊かな公開討論を促進するニュースの文脈で特に重要です。

要約(オリジナル)

Recent breakthroughs in large language models (LLMs) have facilitated autonomous AI agents capable of imitating human-generated content. This technological advancement raises fundamental questions about AI’s impact on the diversity and democratic value of information ecosystems. We introduce a large-scale simulation framework to examine AI-based imitation within news, a context crucial for public discourse. By systematically testing two distinct imitation strategies across a range of information environments varying in initial diversity, we demonstrate that AI-generated articles do not uniformly homogenize content. Instead, AI’s influence is strongly context-dependent: AI-generated content can introduce valuable diversity in originally homogeneous news environments but diminish diversity in initially heterogeneous contexts. These results illustrate that the initial diversity of an information environment critically shapes AI’s impact, challenging assumptions that AI-driven imitation threatens diversity. Instead, when information is initially homogeneous, AI-driven imitation can expand perspectives, styles, and topics. This is especially important in news contexts, where information diversity fosters richer public debate by exposing citizens to alternative viewpoints, challenging biases, and preventing narrative monopolies, which is essential for a resilient democracy.

arxiv情報

著者 Emil Bakkensen Johansen,Oliver Baumann
発行日 2025-03-28 13:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, J.4 | Autonomous AI imitators increase diversity in homogeneous information ecosystems はコメントを受け付けていません